解题思路

本题要求模拟 $BPE$ 的迭代合并过程。

初始时，字符串 $S$ 中的每个字符都是一个独立的 $Token$ 。每一轮操作分为三步：

题目内容

某大型语言模型（ $LLM$ ）无法直接理解文本，它需要将文本切分成一个个“ $Token$ ”，最常用的分词算法是 $BPE（Byte$ $Pair$ $Encoding$ ）。

$BPE$ 的核心思想是：迭代合并最高频的相邻字符对。

例如，给定初始字符串 “ $h$ $u$ $g$ $h$ $u$ $g$ ” 中，“ $u$ ” 和 “ $g$ ” 相邻出现了两次，频率最高，合并后为 “ $h$ $ug$ $h$ $ug$ ”。

给定一个初始的字符串 $S$ （由小写英文字母组成）和一个整数 $K$ （最大合并次数），请模拟 $BPE$ 算法的 $K$ 次迭代过程，输出最终的 $Token$ 序列。

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析