技術 2026年2月4日(水) 約2分 Attention SinksとResidual Sinksの統一的理解 ― LLMの「外れ値」は訓練安定化の仕組みだった Transformerの謎の挙動「特定トークンへの注意集中」と「特定次元での大きな活性化」が、実は同じ機構だったという論文の解説。 LLM Transformer 論文