1. Job Roadmap
  2. Home
  3. Problem Set
  4. codenotelist
  5. Forum
  6. course
  7. Shore Share Sessions
  8. Record
  1. Login
  2. Sign Up
  3. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
    ZhContent TextSol AI分析

思路

  • 数据读取与预处理: 输入为英文文本列表;统一小写、英文分词,去停用词。
  • 特征表示: 用 TfidfVectorizer 将每条文本转为 TF-IDF 向量(默认 L2 归一化),降低常见词权重、提升区分性词权重。
  • 相似度计算: 使用余弦相似度 cosine(A,B)=A⋅B∥A∥ ∥B∥\text{cosine}(A,B)=\frac{A\cdot B}{\|A\|\,\|B\|}cosine(A,B)=∥A∥∥B∥A⋅B​ 衡量文本向量夹角,值域 [0,1]。
  • 结果格式: 构造二维列表,元素为保留两位小数的字符串(如 '0.24'),对角线为 '1.00'。

代码

P3574.第2题-文本相似度

    1000ms Tried: 5 Accepted: 4 Difficulty: 6 所属公司 : 阿里
    算法与标签>字符串

题目内容

实现一个基于 TF−IDFTF-IDFTF−IDF 的文本相似度计算系统。具体要求如下:

1.读取输入的文本数据。

2.对文本数据进行预处理(例如分词、去停用词,大小写统一)

3.使用 TF-IDF 方法提取文本特征。

4.计算每对文本之间的余弦相似度。

输入描述

输入为一个一维列表,包含若干英文文本数据。

输出描述

输出为一个二维列表,表示每对文本之间的余弦相似度,保留两位小数,用字符串形式表示。具体格式见输出样例。

补充说明

支持使用 PythonPythonPython 中的 numpy、scipy、pandas、scikit−learnnumpy、scipy、pandas、scikit-learnnumpy、scipy、pandas、scikit−learn 库。

样例1

输入

["I love this product","I LOVE this product","l love this ipad pro"]

输出

['1.00','1.00','0.24']
['1.00','1.00','0.24']
['0.24','0.24','1.00']

登录后即可使用 AI 分析。

模式
倒计时时长
:

最长 10 小时 59 分;应用后按此时长重新开始。

提示:点击提交记录在左侧题面区域查看详情
题库
AI分析设置
留空使用官方API Key,每天有次数限制(自定义API Key仅限会员和管理员使用,不限次数)
会员和管理员可切换模型;切到 Kimi/智谱/通义/豆包时需填写对应供应商 API Key
升级会员,可将运行与提交冷却时间缩短至 1 秒起

Status

  • Judging Queue
  • Service Status

Development

  • Open Source

Support

  • Help
  • Contact Us

About

  • About
  • Privacy
  • Terms of Service
  • Copyright Complaint
  1. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
  2. Legacy mode
  3. Theme
    1. Light
    2. Dark
  1. 京ICP备2025123107号-1
  2. Worker 2, 53ms
  3. Powered by Hydro v5.0.0-beta.18 Community
CLOSE


ScanQRCodePrompt

请使用微信扫描下方二维码完成注册

Forgot password or username?