Byte-Pair Encoding 算法
Byte-Pair Encoding(BPE)算法是一种常用于分词器(Tokenizer)中的无监督分词方法,其主要思想是将文本中最常见的字符对(或子词对)不断合并,从而构建出一个词汇表。由于进行多轮 (假设
- 将输入的文本转化为 UTF-8 Encoding
- 统计 Byte-Pair 的频率
- 计算频率最高的 Byte-Pair,合并为一个新的 Token
- 用新的 Token 替换旧 Byte-Pair 出现的位置
- 回到第
步,重新统计 Byte-Pair (Token-Pair) 频率 - 直到词汇表大小达到预设值
BPE 算法通过这种逐步合并的方式,不仅能有效地表示常见词汇,还能灵活处理低频词和新词,对于大型语言模型的分词和词表构建有很大的优势。