#Transformer

1 件の記事

技術 2026年2月4日(水) 約2分

Attention SinksとResidual Sinksの統一的理解 ― LLMの「外れ値」は訓練安定化の仕組みだった

Transformerの謎の挙動「特定トークンへの注意集中」と「特定次元での大きな活性化」が、実は同じ機構だったという論文の解説。

LLM Transformer 論文