Decoder-only Transformers

Decoder-only 架构通常用于生成任务,代表作包括 GPT,GPT-2 等。

什么是生成任务

简单来说,Decoder-only 解决的生成任务是指:给定前 nn 个单词 x1,x2,,xnx_1,x_2,\dots,x_n,要求输出第 n+1n+1 个单词。可以看出,这类生成任务的本质是 AutoRegressive 的。

近年来,出现了使用 Diffusion 作为 Language Model 的生成,达到了极快的生成速度。