Tokenizer

Tokenizer 在 LLM(大型语言模型)的上下文中指的是负责将输入文本分解成称为 tokens 的更小单元的组件。这些 tokens 是模型处理的基本元素(例如单词、子词或字符)。Tokenizer 将原始文本转换为模型可以处理的数字表示,并且在处理之后,还能将 tokens 转换回人类可读的文本。


Hugging Face Tokenizer: tokenizer.json