技術 2026年3月21日(土) 約8分 MoonshotAI(Kimi)がTransformerの残差接続をAttentionで置き換えるAttnResを提案、1.25倍の計算効率 Transformerの固定残差結合を深さ方向のsoftmax attentionに置き換えるAttnRes。Kimi Linear 48Bでの実証でGPQA-Diamond +7.5pt、HumanEval +3.1ptの改善。訓練オーバーヘッドは4%未満、推論は2%未満に抑えた。 AI LLM MoonshotAI Kimi Transformer 研究
技術 2026年2月4日(水) 約2分 Attention SinksとResidual Sinksの統一的理解 ― LLMの「外れ値」は訓練安定化の仕組みだった Transformerの謎の挙動「特定トークンへの注意集中」と「特定次元での大きな活性化」が、実は同じ機構だったという論文の解説。 LLM Transformer 論文