Tokenizer, BPE 算法

Byte-Pair Encoding 算法

Byte-Pair Encoding（BPE）算法是一种常用于分词器（Tokenizer）中的无监督分词方法，其主要思想是将文本中最常见的字符对（或子词对）不断合并，从而构建出一个词汇表。由于进行多轮（假设 $k$ 轮）合并，而每一次合并都会基于统计频率将一对 Token 合并为一个新 Token，因此在 $k$ 轮迭代后，BPE 算法可以将长度为 $k$ 的单词合并为一个 Token

将输入的文本转化为 UTF-8 Encoding
统计 Byte-Pair 的频率
计算频率最高的 Byte-Pair，合并为一个新的 Token
用新的 Token 替换旧 Byte-Pair 出现的位置
回到第 $2$ 步，重新统计 Byte-Pair (Token-Pair) 频率
直到词汇表大小达到预设值

BPE 算法通过这种逐步合并的方式，不仅能有效地表示常见词汇，还能灵活处理低频词和新词，对于大型语言模型的分词和词表构建有很大的优势。

Tokenizer, BPE 算法

Byte-Pair Encoding 算法

BPE 代码实现