TfidfVectorizer
将每条文本转为 TF-IDF 向量(默认 L2 归一化),降低常见词权重、提升区分性词权重。'0.24'
),对角线为 '1.00'
。实现一个基于 TF−IDF 的文本相似度计算系统。具体要求如下:
1.读取输入的文本数据。
2.对文本数据进行预处理(例如分词、去停用词,大小写统一)
3.使用 TF-IDF 方法提取文本特征。
4.计算每对文本之间的余弦相似度。
输入为一个一维列表,包含若干英文文本数据。
输出为一个二维列表,表示每对文本之间的余弦相似度,保留两位小数,用字符串形式表示。具体格式见输出样例。
支持使用 Python 中的 numpy、scipy、pandas、scikit−learn 库。
输入
["I love this product","I LOVE this product","l love this ipad pro"]
输出
['1.00','1.00','0.24']
['1.00','1.00','0.24']
['0.24','0.24','1.00']