1. Job Roadmap
  2. Home
  3. Problem Set
  4. codenotelist
  5. Forum
  6. course
  7. Shore Share Sessions
  8. Record
  1. Login
  2. Sign Up
  3. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
    ZhContent TextSol AI分析

思路梳理

  1. 读入数据(JSON):train 为 [[text, label], ...],test 为 ["text1", ...]。

  2. 数据清洗:

    • 全部转小写;
    • 去首尾空白并将连续空白折叠为单空格(" ".join(text.split()))。
  3. 特征工程:

P3427.第2题-英文短文本情感二分类

    1000ms Tried: 21 Accepted: 7 Difficulty: 5 所属公司 : 蚂蚁
    算法与标签>机器学习算法

题目内容

在仅使用 numpynumpynumpy/ pandaspandaspandas / scikit−learnscikit-learnscikit−learn的前提下,完成一个英文短文本情感二分类流程:

111.数据清洗(统一大小写、去掉多余空字符)

222.特征工程:CountVectorizer(1−2gram,mindf=1)CountVectorizer(1-2 gram,min_df =1)CountVectorizer(1−2gram,mind​f=1) → TfidfTransformerTfidfTransformerTfidfTransformer

333.模型:LogisticRegressionLogisticRegressionLogisticRegression(penaltypenaltypenalty="121212",C=1.0C=1.0C=1.0,solversolversolver="lbfgslbfgslbfgs", max_iter=500500500,random_state=424242)

444.预测:概率≥0.50.50.5→正面111,否则000

111.读取数据

输入JSONJSONJSON格式

{
"train": [I"I love this movie", 1],
         ["Awful and boring", 0],
         …]
"test" : ["Great plot!", "Terrible acting"]
}
  • traintraintrain: 每行[text,labeltext,labeltext,label],labelElabelElabelE{0,10,10,1}”

  • testtesttest:仅文本列表

2.预处理

iii.将文本统一转成小写

iiiiii.去首尾空白、再单空格重连,消除多余空格

333.特征工程

使用CountVectorizerCountVectorizerCountVectorizer与TfidfTransformerTfidfTransformerTfidfTransformer{}处理特征,先fit+transformfit+ transformfit+transform 训练集,再仅transformtransformtransform测试集

444.模型训练&预测

在训练TF−IDFTF-IDFTF−IDF特征上 fitLogisticRegressionfit LogisticRegressionfitLogisticRegression

对测试集计算正类概率;≥0.5→1≥0.5→1≥0.5→1 ,否则 000

输入描述

{
"train": [["good movie",1].,["bad movie",0],["great  acting",1),["terrible plot",0]].
"test": ["good acting", "bad plot"]
}

训练集每条数据一条文本,一个标签,训练数据量 ≥4≥4≥4 ,测试集只有文本

输出描述

单行JSONJSONJSON数组,顺序与 testtesttest 对应,如 [1,0,1][1,0,1][1,0,1]

补充说明

111.为确保通过测试用例,所有随机过程均设置randomstate=42random_state=42randoms​tate=42

222.仅允许使用 numpynumpynumpy / pandaspandaspandas / scikit−learnscikit-learnscikit−learn

333.所有的整数类型应转换为 PythonPythonPython 原生 intintint 类型,以确保能够顺利进行 JSONJSONJSON 序列化

样例1

输入

{"train":[["good movie", 1],["great film",1],["bad movie",0],["terrible fiim",0]], "test":["good film", "bad film"]}

输出

[1,0]

登录后即可使用 AI 分析。

模式
倒计时时长
:

最长 10 小时 59 分;应用后按此时长重新开始。

提示:点击提交记录在左侧题面区域查看详情
题库
AI分析设置
留空使用官方API Key,每天有次数限制(自定义API Key仅限会员和管理员使用,不限次数)
会员和管理员可切换模型;切到 Kimi/智谱/通义/豆包时需填写对应供应商 API Key
升级会员,可将运行与提交冷却时间缩短至 1 秒起

Status

  • Judging Queue
  • Service Status

Development

  • Open Source

Support

  • Help
  • Contact Us

About

  • About
  • Privacy
  • Terms of Service
  • Copyright Complaint
  1. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
  2. Legacy mode
  3. Theme
    1. Light
    2. Dark
  1. 京ICP备2025123107号-1
  2. Worker 2, 44ms
  3. Powered by Hydro v5.0.0-beta.18 Community
CLOSE


ScanQRCodePrompt

请使用微信扫描下方二维码完成注册

Forgot password or username?