技術 2026年6月16日(火) 約10分 Claude Fable停止後にKimi K2.7 CodeとQwen3.7 Maxがエージェント枠を取りに来ている 2026年6月16日時点で、Claude Fable 5停止後の代替候補を中華系AIの最新リリースから見る。Kimi K2.7 Code、Qwen3.7 Max、DeepSeek V4、GLM-5.1の差分と、Claude Code互換ハーネスで使うときの制約を整理した。 AI LLM 中華系AI Kimi Qwen DeepSeek MoE AIエージェント
技術 2026年6月9日(火) 約10分 SenseNova U1 8BのLoRA trainerは32GB GPUのbf16学習を前提にする LaxharのSenseNova U1 LoRA trainerのREADMEとSETUPを読んだ。4bit学習は画像崩れで断念しbf16 + tower offloadでVRAM約20GB、32GB GPU必須。公式8-step LoRAスタック構成とA3B MoE互換レイヤーの現状、公式training codeとの違いまで。 AI 画像生成 LoRA HuggingFace MoE
技術 2026年5月26日(火) 約14分 Hy-MT2 1.8BをM1 Maxで動かす、1.25bit 440MB版は標準llama.cppでまだ動かない M1 Max 64GBでHy-MT2 1.8B Q4_K_M (1.08GB) をllama-serverに載せ、JSON・SRT・HTML・用語拘束・少数言語まで投げて入出力を確認。1.25bit 440MB版は標準llama.cppでロード不可、30B-A3B (hy_v3) もMacの標準ルートで動かない。 AI LLM 翻訳 ローカルLLM HuggingFace 量子化 MoE オープンソース Mac Apple Silicon 実験
技術 2026年4月30日(木) 約8分 Xiaomi MiMo-V2.5はMacやROCmで動かせるのか Xiaomi MiMo-V2.5のウェイト公開後、Mac/ROCmとクラウドGPU(RunPod/GCE)での実行可否を調べた。手元機ではまだ厳しいが、RunPodの4x H200で約14ドル/時間、GCE SpotのH100なら約1.6ドル/時間で動かせる。 AI LLM ローカルLLM Xiaomi MoE Apple Silicon ROCm llama.cpp
技術 2026年4月27日(月) 約6分 LLaDA2.0-Uniは拡散LLMで画像理解と生成を一本化したオープンモデル Inclusion AIがLLaDA2.0-Uniを公開した。16B MoEの拡散LLMを中核に、画像理解、1024px画像生成、画像編集、テキストと画像の交互生成を単一モデルで扱う。 AI LLM 画像生成 VLM MoE オープンモデル 拡散モデル
技術 2026年4月25日(土) 約10分 SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす Ant Group系列のinclusionAIが公開したLing-flash-2.0(bailing_moe、100B A6.1B、MXFP4量子化)をSwiftLMで食わせてみた記録。mlx-swift-lmのbailing_moe対応状況の確認から起動までを追う。 Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE MXFP4 Ant Group 実験
技術 2026年4月24日(金) 約12分 SwiftLMをM1 Max 64GBで動かしてOllama/MLX-lmと比べてみた Swift製LLM推論サーバーSwiftLMをM1 Max 64GBで実際にビルド・起動して、Qwen3.6-35B-A3Bと122B-A10Bの挙動を確認。BST・簡易BBS・かなちゃんペルソナの3系統で既存のOllama・MLX-lm検証と突き合わせた。 Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE 実験
技術 2026年4月24日(金) 約10分 DeepSeek V4 Previewが1Mコンテキストで登場、V4-Pro 1.6T/V4-Flash 284BがMITで公開されV3.2比27% FLOPsを実現 DeepSeekが2026年4月24日にV4 Previewを公開。V4-Pro(1.6T/49B active)とV4-Flash(284B/13B active)はどちらも1Mコンテキストに対応し、CSA+HCAハイブリッドアテンションとmHC、Muonオプティマイザで1Mトークン時のFLOPsをV3.2比27%まで削減している。Expert Mode / Instant Modeとして即日APIも更新された。 LLM DeepSeek 中華系AI MoE オープンモデル AIエージェント
技術 2026年4月24日(金) 更新 約14分 Tencent Hy3-previewとAnt Ling-2.6-flashが同週公開、中華系オープンMoEが295Bと104Bで別方向に走る 2026年4月22日にAnt LingがLing-2.6-flash(104B/7.4B active)を、翌23日にTencent HunyuanがHy3-preview(295B/21B active)をそれぞれオープンウェイトで公開した。片やDeepSeek-V3やGLM-4.5と同じフロンティア帯を狙う重量級、片やトークン効率7倍を打ち出す高効率エージェント特化型で、同じ週に出てきた中華系MoEでも方向性がはっきり分かれている。 LLM 中華系AI MoE オープンモデル AIエージェント ローカルLLM OpenRouter
技術 2026年4月23日(木) 更新 約9分 Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供 XiaomiがMiMo-V2.5系列を2モデル同時公開。MiMo-V2.5-ProはSWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9でフロンティア級、MiMo-V2.5はネイティブオムニモーダル+1M context。現時点ではAPI専用でローカル実行は不可、オープン化は予告のみ。 AI LLM 中華系AI MoE AIエージェント マルチモーダル Xiaomi
技術 2026年4月23日(木) 約12分 Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。 LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験
技術 2026年4月21日(火) 更新 約9分 Qwen3.6-35B-A3BをOllamaでM1 Max 64GBに流したら思考が13倍に膨らんだ Ollama 0.20.6でQwen3.6-35B-A3Bを試した記録。Gated DeltaNet対応済みで生成速度はQwen3.5と同じ27 tok/s、ただし思考トークンは13倍。マルチターン・ペルソナ・NSFW三段階の挙動もまとめた。 LLM ローカルLLM Qwen Ollama Apple Silicon MoE 実験