技術 2026年3月31日(火) 約6分 OllamaがMLXバックエンドに移行、Apple Siliconでのローカル推論が劇的に高速化 Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。 Ollama MLX Apple Silicon LLM ローカルLLM 推論最適化
技術 2026年3月31日(火) 約8分 Qwen3.5-35B-A3Bでctx-sizeを4096→65536にしたらVRAM 800MB増で速度も変わらなかった Qwen3.5-35B-A3BはSSM+Attentionハイブリッドで40層中10層しかKVキャッシュを使わない。llama-serverでctx-sizeを4096→65536に拡張してもVRAM増加は800MB、速度低下ゼロ。q8_0 KV量子化の実測とTurboQuantの現状も。 LLM ローカルLLM llama.cpp AMD Vulkan KVキャッシュ Qwen 実験
技術 2026年3月25日(水) 約18分 HypuraのNVMeストリーミングとTurboQuantのKVキャッシュ量子化 llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。 LLM ローカルLLM 量子化 Apple Silicon 推論最適化 KVキャッシュ Rust
技術 2026年3月23日(月) 約7分 397Bパラメータモデルを48GB MacBookで動かすFlash-MoE Flash-MoEはQwen3.5-397B-A17BをMacBook Pro M3 Maxで4.36トークン/秒で実行するC/Metal推論エンジン。SSDからのエキスパートストリーミングと手書きMetalシェーダーで209GBのモデルを48GBのメモリ環境に収めた。 Inference MPS LLM Qwen MoE ローカルLLM
技術 2026年3月18日(水) 約4分 PC操作AIが1.7倍速くなったHolotron-12Bと、コード不要でAIを自分好みに調整できるUnsloth Studio H CompanyのHolotron-12Bはメモリ効率の良い新設計で、PC操作AIの処理速度を毎秒8,900トークンに引き上げた。UnslothはAIモデルの追加学習をコード不要でできるブラウザツール「Studio」をベータ公開。 AI LLM AIエージェント Unsloth ローカルLLM
技術 2026年3月1日(日) 約11分 Qwen 3.5がRadeon 8060Sで全滅した原因はAMDドライバだった Qwen 3.5がROCm/Vulkanで動かない原因をCPU推論・llama-server・LM Studioで切り分けた結果、AMDドライバの更新で全て解決した。 AI LLM ローカルLLM AMD llama.cpp Ollama LM Studio 実験
技術 2026年2月28日(土) 更新 約11分 abliteratedモデルをOllamaで動かそうとして全滅した話と、結局公式版で済んだ話 huihui-aiのQwen 3.5 abliteratedは全バリアントでゴミトークンを吐いて全滅。GLM-4.7-Flash abliteratedもテンプレート崩壊で使い物にならず、最終的に公式版+thinking無効が正解だった。 AI LLM Ollama ローカルLLM AMD LM Studio Vulkan ROCm 実験
技術 2026年2月27日(金) 約8分 ScanSnap+NDLOCR-Liteで機密文書をローカルOCRするホットフォルダを作った ScanSnapで読み込んだ画像をフォルダ監視スクリプトで自動OCRし、LLM校正まで試した記録。エアギャップ環境でのセキュリティ設計も含む。 OCR NDLOCR-Lite ScanSnap Python Mac ローカルLLM 実験
技術 2026年2月27日(金) 約7分 NDLOCRを3か月やった記録と周辺の実装いろいろ Docker版で地獄を見てからLite+LLM校正まで。自分の試行錯誤と、NDLOCR-LiteをブラウザOCRにした人の実装を紹介する。 OCR NDLOCR NDLOCR-Lite Python Docker ローカルLLM ONNX WebAssembly 実験
技術 2026年2月26日(木) 更新 約13分 NDLOCR-Liteの読み取り結果をQwen3.5とSwallowで校正比較した NDLOCR-LiteのCLI版をApple Silicon Macにセットアップし、Qwen 3.5やSwallowでOCR結果を校正してみた記録。画像直読みやアンカリング効果など、いろいろ試した。 OCR Python NDLOCR-Lite Mac Qwen Swallow ollama ローカルLLM 実験
技術 2026年2月15日(日) 更新 約5分 EVO-X2でローカルLLM環境を構築した GMKtec EVO-X2(Strix Halo)でNSFW対応のローカルLLMを構築した記録。LM StudioとMS3.2-24B-Magnum-Diamondで約11 tokens/sのGPU推論を実現するまで。 AI LLM ローカルLLM LM Studio AMD 実験