读入数据(JSON):train
为 [[text, label], ...]
,test
为 ["text1", ...]
。
数据清洗:
" ".join(text.split())
)。特征工程:
CountVectorizer(ngram_range=(1,2), min_df=1, token_pattern=r'(?u)\b\w+\b')
在仅使用 numpy/ pandas / scikit−learn的前提下,完成一个英文短文本情感二分类流程:
1.数据清洗(统一大小写、去掉多余空字符)
2.特征工程:CountVectorizer(1−2gram,mindf=1) → TfidfTransformer
3.模型:LogisticRegression(penalty="12",C=1.0,solver="lbfgs", max_iter=500,random_state=42)