#MoE

19 件の記事

技術 2026年4月21日(火) 更新約11分

Qwen3.6-Max-PreviewとKimi K2.6がほぼ同時リリース、フラッグシップ級コーディングモデルを並べて比較

AlibabaのQwen3.6-Max-PreviewとMoonshot AIのKimi K2.6が4月20〜21日に相次いで登場した。スペック、ベンチマーク、提供形態、エージェント関連機能を横並びで比較し、2つのフラッグシップの位置付けを整理した。

LLM Qwen Kimi Moonshot AI MoE エージェントコーディング

技術 2026年4月17日(金) 更新約10分

Qwen3.6-35B-A3BがGated DeltaNetとMoEを組み合わせてエージェントコーディングを底上げした

Alibaba QwenチームがQwen3.6-35B-A3Bをオープンウェイトで公開。Gated DeltaNet+Attention+MoEのハイブリッド40層構造で、SWE-bench Verified 73.4、MCPMark 37.0、QwenWebBench 1397を達成した。

LLM ローカルLLM Qwen MoE エージェントコーディング

技術 2026年4月8日(水) 約9分

智谱AIのGLM-5.1、600回以上の反復で性能が落ちないLong-Horizonエージェントモデル

智谱AI（Zhipu AI）がGLM-5.1をリリース。744BパラメータのMoEで40Bアクティブ、SWE-Bench Proで58.4%のSOTA達成。8時間・6000回超のツール呼び出しでも性能劣化しない長期タスク対応が最大の特徴。

AI LLM 中華系AI MoE オープンモデル AIエージェント

技術 2026年4月6日(月) 約12分

LLM-jp-4-32B-A3BをROCm + Strix HaloでベンチマークしたらQwen3.5より41%速かった

NIIが公開したLLM-jp-4-32B-A3B-thinkingをEVO-X2（Ryzen AI Max+ 395）のROCmで動かした。62.9 t/sでQwen3.5-35B-A3Bの44.7 t/sを大きく上回るが、thinking制御やKVキャッシュ消費、知識カットオフに課題あり。日本語比較テストとコード生成テストの結果も。

AI LLM ローカルLLM llama.cpp AMD ROCm MoE Qwen 実験

技術 2026年4月3日(金) 更新約24分

Google Gemma 4がE2BからA4Bまで4サイズ展開、Gemini 3由来の推論性能をApache 2.0で公開

Google DeepMindがGemma 4をリリース。31B Dense、26B MoE（A4B）、E4B、E2Bの4モデルで、256Kコンテキスト、マルチモーダル入力、ツール呼び出し、140言語をサポートする。

AI LLM Google オープンモデル MoE マルチモーダルローカルLLM

技術 2026年4月2日(木) 更新約13分

SwiftLMはTurboQuantとSSDストリーミングをMetalシェーダーに統合したSwift製LLM推論サーバー

Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。

Apple Silicon LLM MLX ローカルLLM 推論最適化 KVキャッシュ MoE Swift

技術 2026年3月23日(月) 約7分

397Bパラメータモデルを48GB MacBookで動かすFlash-MoE

Flash-MoEはQwen3.5-397B-A17BをMacBook Pro M3 Maxで4.36トークン/秒で実行するC/Metal推論エンジン。SSDからのエキスパートストリーミングと手書きMetalシェーダーで209GBのモデルを48GBのメモリ環境に収めた。

Inference MPS LLM Qwen MoE ローカルLLM