本题要求模拟 BPE 的迭代合并过程。
初始时,字符串 S 中的每个字符都是一个独立的 Token。每一轮操作分为三步:
某大型语言模型(LLM)无法直接理解文本,它需要将文本切分成一个个“Token”,最常用的分词算法是 BPE(Byte Pair Encoding)。
BPE 的核心思想是:迭代合并最高频的相邻字符对。
例如,给定初始字符串 “h u g h u g” 中,“u” 和 “g” 相邻出现了两次,频率最高,合并后为 “h ug h ug”。
给定一个初始的字符串 S(由小写英文字母组成)和一个整数 K(最大合并次数),请模拟 BPE 算法的 K 次迭代过程,输出最终的 Token 序列。