#ローカルLLM

40 件の記事

技術 2026年4月6日(月) 約12分

LLM-jp-4-32B-A3BをROCm + Strix HaloでベンチマークしたらQwen3.5より41%速かった

NIIが公開したLLM-jp-4-32B-A3B-thinkingをEVO-X2（Ryzen AI Max+ 395）のROCmで動かした。62.9 t/sでQwen3.5-35B-A3Bの44.7 t/sを大きく上回るが、thinking制御やKVキャッシュ消費、知識カットオフに課題あり。日本語比較テストとコード生成テストの結果も。

AI LLM ローカルLLM llama.cpp AMD ROCm MoE Qwen 実験

技術 2026年4月3日(金) 約8分

LemonadeをStrix Halo (EVO-X2) で動かしたらVulkanの共有メモリ漏れとROCmの安定性が見えた

AMD Lemonade v10.0.1をRyzen AI Max+ 395環境で検証。LLM・画像生成・音声認識・音声合成の4モデル同時起動、NPU Hybrid実行、Vulkan vs ROCmの実測比較と共有メモリ漏れの発見まで。

AMD ローカルLLM Vulkan ROCm NPU llama.cpp GPU 推論最適化ベンチマーク実験

技術 2026年4月3日(金) 更新約9分

AMD公式のローカルAIサーバーLemonade、GPU+NPUを束ねてLLM・画像・音声を一元提供

AMDが開発するオープンソースのローカルAIサーバーLemonadeは、llama.cppやFastFlowLMなど複数バックエンドをGPU/NPU/CPU横断で管理し、OpenAI互換APIでテキスト・画像・音声を統合提供する。

AMD ローカルLLM NPU GPU llama.cpp 推論最適化 ROCm Vulkan

技術 2026年4月3日(金) 更新約24分

Google Gemma 4がE2BからA4Bまで4サイズ展開、Gemini 3由来の推論性能をApache 2.0で公開

Google DeepMindがGemma 4をリリース。31B Dense、26B MoE（A4B）、E4B、E2Bの4モデルで、256Kコンテキスト、マルチモーダル入力、ツール呼び出し、140言語をサポートする。

AI LLM Google オープンモデル MoE マルチモーダルローカルLLM

技術 2026年4月2日(木) 更新約13分

SwiftLMはTurboQuantとSSDストリーミングをMetalシェーダーに統合したSwift製LLM推論サーバー

Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。

Apple Silicon LLM MLX ローカルLLM 推論最適化 KVキャッシュ MoE Swift

技術 2026年3月31日(火) 約6分

OllamaがMLXバックエンドに移行、Apple Siliconでのローカル推論が劇的に高速化

Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。

Ollama MLX Apple Silicon LLM ローカルLLM 推論最適化

技術 2026年3月31日(火) 約8分

Qwen3.5-35B-A3Bでctx-sizeを4096→65536にしたらVRAM 800MB増で速度も変わらなかった

Qwen3.5-35B-A3BはSSM+Attentionハイブリッドで40層中10層しかKVキャッシュを使わない。llama-serverでctx-sizeを4096→65536に拡張してもVRAM増加は800MB、速度低下ゼロ。q8_0 KV量子化の実測とTurboQuantの現状も。

LLM ローカルLLM llama.cpp AMD Vulkan KVキャッシュ Qwen 実験

技術 2026年3月25日(水) 約18分

HypuraのNVMeストリーミングとTurboQuantのKVキャッシュ量子化

llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。

LLM ローカルLLM 量子化 Apple Silicon 推論最適化 KVキャッシュ Rust

技術 2026年3月23日(月) 約7分

397Bパラメータモデルを48GB MacBookで動かすFlash-MoE

Flash-MoEはQwen3.5-397B-A17BをMacBook Pro M3 Maxで4.36トークン/秒で実行するC/Metal推論エンジン。SSDからのエキスパートストリーミングと手書きMetalシェーダーで209GBのモデルを48GBのメモリ環境に収めた。

Inference MPS LLM Qwen MoE ローカルLLM

技術 2026年3月18日(水) 約4分

PC操作AIが1.7倍速くなったHolotron-12Bと、コード不要でAIを自分好みに調整できるUnsloth Studio

H CompanyのHolotron-12Bはメモリ効率の良い新設計で、PC操作AIの処理速度を毎秒8,900トークンに引き上げた。UnslothはAIモデルの追加学習をコード不要でできるブラウザツール「Studio」をベータ公開。

AI LLM AIエージェント Unsloth ローカルLLM

技術 2026年3月1日(日) 約11分

Qwen 3.5がRadeon 8060Sで全滅した原因はAMDドライバだった

Qwen 3.5がROCm/Vulkanで動かない原因をCPU推論・llama-server・LM Studioで切り分けた結果、AMDドライバの更新で全て解決した。

AI LLM ローカルLLM AMD llama.cpp Ollama LM Studio 実験

技術 2026年2月28日(土) 更新約11分

abliteratedモデルをOllamaで動かそうとして全滅した話と、結局公式版で済んだ話

huihui-aiのQwen 3.5 abliteratedは全バリアントでゴミトークンを吐いて全滅。GLM-4.7-Flash abliteratedもテンプレート崩壊で使い物にならず、最終的に公式版+thinking無効が正解だった。

AI LLM Ollama ローカルLLM AMD LM Studio Vulkan ROCm 実験