题目内容

假设你团队正在开发一个文本分类模型，用于将客户评论分类为正面或负面。由于文本数据具有高维度的特性，模型训练和预测的效率受到影响。你提议使用卡方检验进行特征选择，挑选出与分类任务最相关的词汇，降低数据的维度，从而提高模型的性能。

请你编写一个程序，使用卡方检验对给定的文本数据集进行特征选择。

具体要求如下:

1.读取输入数据集，包含多篇标注了类别的文本文档。

题解

题面描述

给定包含 $N$ 篇文档的文本数据集，每篇文档由一个类别标签（取值为 "positive" 或 "negative"）和文本内容构成。要求使用 $Bag\text{-}of\text{-}Words$ 模型提取文本特征，利用卡方检验计算每个单词与类别标签之间的相关性。卡方统计量的计算公式为
$\chi^2$ = $\sum_{i=1}^{2}$ $\sum_{j=1}^{2}$ $\frac{(O_{ij}-E_{ij})^2}{E_{ij}}$ 其中 $O_{ij}$ 表示观察到的频数， $E_{ij}$ 表示在独立性假设下计算的期望频数，计算公式为

E_{ij} = \frac{(\text{行和})\times(\text{列和})}{N}.

具体步骤如下：

读取输入数据集，第一行是文档数 $N$ ，接下来的 $N$ 行每行格式为

#P2781. 第2题-文本数据

第2题-文本数据

题目内容

题解

题面描述

Status

Development

Support

#P2781. 第2题-文本数据 ⬅ 上一题 ➡ 下一题

第2题-文本数据

题目内容

题解

题面描述

Status

Development

Support

#P2781. 第2题-文本数据