Self Attention 所谓的 Self Attention 其实只是 Q=K=VQ=K=VQ=K=V 的一种特例 Self-Attn(X)=Attention(X,X,X) \text{Self-Attn}(X)=\text{Attention}(X,X,X) Self-Attn(X)=Attention(X,X,X)直觉理解的话,可以认为是在句子的内部做 Attention,寻找句子内部的联系。