1. Job Roadmap
  2. Home
  3. Problem Set
  4. codenotelist
  5. Forum
  6. course
  7. Shore Share Sessions
  8. Record
  1. Login
  2. Sign Up
  3. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
    ZhContent TextSol video solution AI分析

解题思路

本题要求把一段不含空格的小写英文字符串切分为若干“词元”,并最大化: 所有词元的置信度分数之和 + 相邻词元之间的转移加分之和。 若无法完全用词表中的词覆盖整句,则输出 0。

核心算法:动态规划(DP)

  • 设原串为 text,长度为 L。

P3713.第3题-大模型分词

    1000ms Tried: 2868 Accepted: 692 Difficulty: 5 所属公司 : 华为
    算法与标签>动态规划

题目内容

您正在为一种罕见的语言构建一个专用的大语言模型。由于训练样本缺失,传统BPE BPE BPE等标准的分词器效果不佳,使得大模型推理生成的句子不理想。

幸运的是,一位语言学家为罕见的语言的已知词根和词缀(我们统称为“词元"或“TokenTokenToken”)都标注了一个“置信度”分数,这个分数代表了该词元作为一个“独立单位”的合理性,同时,语言学家还总结出了一个转移分数表,表示当前词元选择对下一个词元"置信度"的影响。

您的任务是设计并实现一个“最优分词器”,它能将输入的罕见语言句子(一个不含空格的英文小写字符多也串)切分成一系列词元,并使得所有词元的置信度分数之和达到最大,从而帮助大语言模型在后续处理中能够输出更合理的句子

输入描述

第一行输入待分词的字符串 texttexttext,假设只包含英文小写字母;

接着输入词典词条数 nnn;

然后输入nn n行,每一行包含一个单词和对应的分值,以空格分隔。

第 n+3n+3n+3 行为转移分数的个数 mmm。

随后mmm行为转移分数数据。包括起始词、下一个词、转移分数加分XXX。以空格分隔。

参数范围说明:

  1. 0<len(text)≤1000 < len(text) \leq 1000<len(text)≤100
  2. −100≤-100 \leq−100≤ 词典中单词的得分 ≤100 \leq 100≤100
  3. −100≤-100 \le−100≤ 词汇表置信度分数P≤100P \le 100P≤100
  4. 输入的字符串都是英文小写字母
  5. 0<0 < 0<词汇表大小 n≤100n \le 100n≤100

输出描述

返回最高的分词得分,若根据已知间汇表无法拆分则返回000、我们约定若切分成一系列词元中含有不在已知词汇表中的词,则最终得分为000。

样例1

输入

applepie
2
pen 3
apple 10
2
pen apple 5
pie apple 2

输出

0

说明

texttexttext中的字符不能和词典词条匹配出切分结果,无法计算得分。

样例2

输入

goodeats
4
good 15
goo 12
deats 14
eats 10
1
good eats -5

输出

26

说明

切分为["goodgoodgood","eatseatseats"] 的总分=15+10−5=20 = 15 + 10 - 5 = 20=15+10−5=20;

切分为 ["googoogoo","deatsdeatsdeats"] 的总分=12+14=26 = 12 + 14 = 26=12+14=26;

所以最大得分为 262626。

开通会员即可查看完整视频题解: 1.题目讲解 2.思路分析 3.逐行代码手写

登录后即可使用 AI 分析。

模式
倒计时时长
:

最长 10 小时 59 分;应用后按此时长重新开始。

提示:点击提交记录在左侧题面区域查看详情
题库
AI分析设置
留空使用官方API Key,每天有次数限制(自定义API Key仅限会员和管理员使用,不限次数)
会员和管理员可切换模型;切到 Kimi/智谱/通义/豆包时需填写对应供应商 API Key
升级会员,可将运行与提交冷却时间缩短至 1 秒起

Status

  • Judging Queue
  • Service Status

Development

  • Open Source

Support

  • Help
  • Contact Us

About

  • About
  • Privacy
  • Terms of Service
  • Copyright Complaint
  1. Language
    1. English
    2. 한국어
    3. 简体中文
    4. 正體中文
  2. Legacy mode
  3. Theme
    1. Light
    2. Dark
  1. 京ICP备2025123107号-1
  2. Worker 2, 58ms
  3. Powered by Hydro v5.0.0-beta.18 Community
CLOSE


ScanQRCodePrompt

请使用微信扫描下方二维码完成注册

Forgot password or username?