第2题-LLM 基石 - BPE 分词算法模拟 - problem_ide - CodeFun2000

登录查看题面

登录后即可查看完整题面内容。

会员专享

请先登录，登录后可使用今日免费解锁；开通会员，或购买该题目所属题库（华为校招机考题库），可解锁完整内容。

购买题库开通会员

解题思路

本题要求模拟 $BPE$ 的迭代合并过程。

初始时，字符串 $S$ 中的每个字符都是一个独立的 $Token$ 。每一轮操作分为三步：

统计当前序列中所有相邻 $Token$ 对的出现次数。
找到出现频率最高的相邻对。

编辑器加载中…

输入

预期输出（选填）