#P2781. 第2题-文本数据

    ID: 2413 Tried: 46 Accepted: 4 Difficulty: 8 所属公司 : 阿里 时间 :2025年3月30日-阿里云(算法岗)
      算法标签>模拟

第2题-文本数据

题目内容

假设你团队正在开发一个文本分类模型,用于将客户评论分类为正面或负面。由于文本数据具有高维度的特性,模型训练和预测的效率受到影响。你提议使用卡方检验进行特征选择,挑选出与分类任务最相关的词汇,降低数据的维度,从而提高模型的性能。

请你编写一个程序,使用卡方检验对给定的文本数据集进行特征选择。

具体要求如下:

1.读取输入数据集,包含多篇标注了类别的文本文档。