第2题-文本相似度 - problem_ide - CodeFun2000

登录查看题面

登录后即可查看完整题面内容。

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（阿里系机考题库），可解锁完整内容。

购买题库开通会员

思路

数据读取与预处理: 输入为英文文本列表；统一小写、英文分词，去停用词。
特征表示: 用 TfidfVectorizer 将每条文本转为 TF-IDF 向量（默认 L2 归一化），降低常见词权重、提升区分性词权重。
相似度计算: 使用余弦相似度 $\text{cosine}(A,B)=\frac{A\cdot B}{\|A\|\,\|B\|}$ 衡量文本向量夹角，值域 [0,1]。
结果格式: 构造二维列表，元素为保留两位小数的字符串（如 '0.24'），对角线为 '1.00'。

代码

编辑器加载中…

输入

预期输出（选填）