Attention Mechanism
Attention 机制可以说是现代 LLM 基石的基石了,我打算分几部分解析一下 Attention.
Attention 机制可以说是现代 LLM 基石的基石了,我打算分几部分解析一下 Attention.
在 Attention 基础上演化而来
Self Attention 只要理解了 Vanilla Attention 那么 Self Attention 也就不难理解了。所谓的 Self Attention 就是说,每一个 Token 都有 333 个 vector: Query vec...
Positional Encoding 在 RNN 架构里,由于我们是顺序处理 tokens,因此这里天然地自带 token position 的信息. 然而,对于 Attention 它是 parallel computing 的. 每一个 to...
ViT 划时代的贡献在于,把图像处理的 baseline 和语言模型的 baseline 统一起来(都使用 Transformer 为底座架构),为后续的多模态大模型奠定了基础.
简单来说,就是使用教师模型的输出/中间层输出训练学生模型,使得学生模型在保持体积的情况下体积更小
Transformer Architecture 经典的 Transformer 架构 从整体的架构来看,Transformer 由 Encoder 和 Decoder 两个部分组成. Encoder 对于输入数据 x\bold{x}x,Embe...