Updated on: 2025-05-04

Tokenizer 分词器

Tokenizer

Tokenizer 在 LLM（大型语言模型）的上下文中指的是负责将输入文本分解成称为 tokens 的更小单元的组件。这些 tokens 是模型处理的基本元素（例如单词、子词或字符）。Tokenizer 将原始文本转换为模型可以处理的数字表示，并且在处理之后，还能将 tokens 转换回人类可读的文本。

Tokenizer 分词器

Tokenizer

Hugging Face Tokenizer: tokenizer.json

Hugging Face Tokenizer: `tokenizer.json`