#MoE

16 件の記事

技術 2026年4月30日(木) 約8分

Xiaomi MiMo-V2.5はMacやROCmで動かせるのか

Xiaomi MiMo-V2.5のウェイト公開後、Mac/ROCmとクラウドGPU（RunPod/GCE）での実行可否を調べた。手元機ではまだ厳しいが、RunPodの4x H200で約14ドル/時間、GCE SpotのH100なら約1.6ドル/時間で動かせる。

AI LLM ローカルLLM Xiaomi MoE Apple Silicon ROCm llama.cpp

技術 2026年4月27日(月) 約6分

LLaDA2.0-Uniは拡散LLMで画像理解と生成を一本化したオープンモデル

Inclusion AIがLLaDA2.0-Uniを公開した。16B MoEの拡散LLMを中核に、画像理解、1024px画像生成、画像編集、テキストと画像の交互生成を単一モデルで扱う。

AI LLM 画像生成 VLM MoE オープンモデル拡散モデル

技術 2026年4月25日(土) 約10分

SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす

Ant Group系列のinclusionAIが公開したLing-flash-2.0（bailing_moe、100B A6.1B、MXFP4量子化）をSwiftLMで食わせてみた記録。mlx-swift-lmのbailing_moe対応状況の確認から起動までを追う。

Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE MXFP4 Ant Group 実験

技術 2026年4月24日(金) 約12分

SwiftLMをM1 Max 64GBで動かしてOllama/MLX-lmと比べてみた

Swift製LLM推論サーバーSwiftLMをM1 Max 64GBで実際にビルド・起動して、Qwen3.6-35B-A3Bと122B-A10Bの挙動を確認。BST・簡易BBS・かなちゃんペルソナの3系統で既存のOllama・MLX-lm検証と突き合わせた。

Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE 実験

技術 2026年4月24日(金) 約10分

DeepSeek V4 Previewが1Mコンテキストで登場、V4-Pro 1.6T/V4-Flash 284BがMITで公開されV3.2比27% FLOPsを実現

DeepSeekが2026年4月24日にV4 Previewを公開。V4-Pro（1.6T/49B active）とV4-Flash（284B/13B active）はどちらも1Mコンテキストに対応し、CSA+HCAハイブリッドアテンションとmHC、Muonオプティマイザで1Mトークン時のFLOPsをV3.2比27%まで削減している。Expert Mode / Instant Modeとして即日APIも更新された。

LLM DeepSeek 中華系AI MoE オープンモデル AIエージェント

技術 2026年4月24日(金) 更新約14分

Tencent Hy3-previewとAnt Ling-2.6-flashが同週公開、中華系オープンMoEが295Bと104Bで別方向に走る

2026年4月22日にAnt LingがLing-2.6-flash（104B/7.4B active）を、翌23日にTencent HunyuanがHy3-preview（295B/21B active）をそれぞれオープンウェイトで公開した。片やDeepSeek-V3やGLM-4.5と同じフロンティア帯を狙う重量級、片やトークン効率7倍を打ち出す高効率エージェント特化型で、同じ週に出てきた中華系MoEでも方向性がはっきり分かれている。

LLM 中華系AI MoE オープンモデル AIエージェントローカルLLM OpenRouter

技術 2026年4月23日(木) 更新約9分

Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供

XiaomiがMiMo-V2.5系列を2モデル同時公開。MiMo-V2.5-ProはSWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9でフロンティア級、MiMo-V2.5はネイティブオムニモーダル＋1M context。現時点ではAPI専用でローカル実行は不可、オープン化は予告のみ。

AI LLM 中華系AI MoE AIエージェントマルチモーダル Xiaomi

技術 2026年4月23日(木) 約12分

Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった

Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。

LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験

技術 2026年4月21日(火) 更新約9分

Qwen3.6-35B-A3BをOllamaでM1 Max 64GBに流したら思考が13倍に膨らんだ

Ollama 0.20.6でQwen3.6-35B-A3Bを試した記録。Gated DeltaNet対応済みで生成速度はQwen3.5と同じ27 tok/s、ただし思考トークンは13倍。マルチターン・ペルソナ・NSFW三段階の挙動もまとめた。

LLM ローカルLLM Qwen Ollama Apple Silicon MoE 実験

技術 2026年4月21日(火) 更新約11分

Qwen3.6-Max-PreviewとKimi K2.6がほぼ同時リリース、フラッグシップ級コーディングモデルを並べて比較

AlibabaのQwen3.6-Max-PreviewとMoonshot AIのKimi K2.6が4月20〜21日に相次いで登場した。スペック、ベンチマーク、提供形態、エージェント関連機能を横並びで比較し、2つのフラッグシップの位置付けを整理した。

LLM Qwen Kimi Moonshot AI MoE エージェントコーディング

技術 2026年4月17日(金) 更新約10分

Qwen3.6-35B-A3BがGated DeltaNetとMoEを組み合わせてエージェントコーディングを底上げした

Alibaba QwenチームがQwen3.6-35B-A3Bをオープンウェイトで公開。Gated DeltaNet+Attention+MoEのハイブリッド40層構造で、SWE-bench Verified 73.4、MCPMark 37.0、QwenWebBench 1397を達成した。

LLM ローカルLLM Qwen MoE エージェントコーディング

技術 2026年4月8日(水) 約9分

智谱AIのGLM-5.1、600回以上の反復で性能が落ちないLong-Horizonエージェントモデル

智谱AI（Zhipu AI）がGLM-5.1をリリース。744BパラメータのMoEで40Bアクティブ、SWE-Bench Proで58.4%のSOTA達成。8時間・6000回超のツール呼び出しでも性能劣化しない長期タスク対応が最大の特徴。

AI LLM 中華系AI MoE オープンモデル AIエージェント