#ローカルLLM

37 件の記事

技術 2026年5月14日(木) 約29分

oMLX 0.3.9.dev2をM1 Max 64GBで実測、SSD KVキャッシュ・Gemma 4 VLM MTP・DFlash・omlx launch copilot

M1 Max 64GBにoMLX 0.3.9.dev2を入れて、SSD KVキャッシュ2回目prefill短縮、Gemma 4 VLM MTPオン/オフ、DFlash vs 通常エンジン、omlx launch copilotの実動作を順に測る。VLM入力はWAI-Animaで生成したかなちゃん画像で揃えた。

AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex 実験

技術 2026年5月13日(水) 更新約7分

oMLX 0.3.9.dev2はMacローカルLLMをCodexやCopilotに寄せてきた

oMLX 0.3.9.dev2のリリースノートを読む。Gemma 4 VLMのMTP、DFlash対応、SSD KVキャッシュ、`omlx launch copilot`まわりが、Codex/Copilotなど常駐エージェントをMacローカルLLMに繋ぐ時にどこへ効くかを整理した。

AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex

技術 2026年5月11日(月) 約5分

OllamaのCVE-2026-7482は公開API化したローカルLLMのメモリを読む

Ollama 0.17.1未満のGGUFローダーに境界外読み取り脆弱性。公開API化したローカルLLMでは、環境変数、APIキー、system prompt、会話断片の漏えいまで疑う必要がある。

Ollama セキュリティ脆弱性 CVE ローカルLLM LLM

技術 2026年5月7日(木) 約7分

Gemma 4 MTP drafterをM1 Max 64GBで実測、26B A4Bだけ速くなって31BとE4Bは遅くなった

M1 Max 64GB + mlx-vlm 0.5.0でGemma 4 MTP drafterを実測。26B A4B (MoE) だけ+13%速くなり、公式が一番効くと言った31B DenseとE4Bは逆に遅くなった。コード生成と短文haikuで結論が反転する。

AI LLM Google Gemma ローカルLLM 推論 MLX 実験

技術 2026年5月6日(水) 更新約9分

Gemma 4のMTP drafterで最大3倍高速化、ただし26B MoEはbatch 1で伸びにくい

Google公式のGemma 4 MTP drafter公開を読む。最大3倍高速化の仕組み、vLLMの推奨設定、26B A4Bがbatch 1で伸びにくい理由まで確認した。

AI LLM Google Gemma ローカルLLM 推論

技術 2026年5月5日(火) 約9分

OllamaとローカルLLMでMCPサーバーを使うならブリッジが要る

M1 Max 64GBでOllama経由のローカルLLMにMCPサーバーをつなぐと、MCPHostの非メンテ化、tool calling精度、コンテキスト消費で詰まる。公式SDKでの自作サーバー最小構成も載せた。

Ollama MCP ローカルLLM LLM AIエージェント

技術 2026年5月2日(土) 約22分

FastAPI・Chroma・Open WebUI・Ollamaでマルチモーダル日本語RAGをM1 Maxで組んだ

DEV記事のPDF RAGをM1 Max 64GBで実装し、CLIPで画像、bge-m3 + Qwen3.6 35Bで日本語まで通した実験ログ。モダリティギャップ、推論サーバー並走クラッシュ、LLM-jp 4-8Bの指示追従失敗まで実機の挙動を記録。

AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Apple Silicon Ollama 日本語LLM 実験

技術 2026年5月2日(土) 更新約11分

FastAPI・llama.cpp・Chroma・Open WebUIでPDF用ローカルRAGを組む記事を読んだ

DEV Communityの記事をもとに、FastAPIでOpenAI互換RAG APIを作り、llama.cpp、Chroma、Open WebUIをつなぐ構成の位置づけと実装上の落とし穴を整理する。

AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Docker

技術 2026年4月30日(木) 約8分

Xiaomi MiMo-V2.5はMacやROCmで動かせるのか

Xiaomi MiMo-V2.5のウェイト公開後、Mac/ROCmとクラウドGPU（RunPod/GCE）での実行可否を調べた。手元機ではまだ厳しいが、RunPodの4x H200で約14ドル/時間、GCE SpotのH100なら約1.6ドル/時間で動かせる。

AI LLM ローカルLLM Xiaomi MoE Apple Silicon ROCm llama.cpp

技術 2026年4月25日(土) 約10分

SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす

Ant Group系列のinclusionAIが公開したLing-flash-2.0（bailing_moe、100B A6.1B、MXFP4量子化）をSwiftLMで食わせてみた記録。mlx-swift-lmのbailing_moe対応状況の確認から起動までを追う。

Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE MXFP4 Ant Group 実験

技術 2026年4月24日(金) 約12分

SwiftLMをM1 Max 64GBで動かしてOllama/MLX-lmと比べてみた

Swift製LLM推論サーバーSwiftLMをM1 Max 64GBで実際にビルド・起動して、Qwen3.6-35B-A3Bと122B-A10Bの挙動を確認。BST・簡易BBS・かなちゃんペルソナの3系統で既存のOllama・MLX-lm検証と突き合わせた。

Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE 実験

技術 2026年4月24日(金) 更新約14分

Tencent Hy3-previewとAnt Ling-2.6-flashが同週公開、中華系オープンMoEが295Bと104Bで別方向に走る

2026年4月22日にAnt LingがLing-2.6-flash（104B/7.4B active）を、翌23日にTencent HunyuanがHy3-preview（295B/21B active）をそれぞれオープンウェイトで公開した。片やDeepSeek-V3やGLM-4.5と同じフロンティア帯を狙う重量級、片やトークン効率7倍を打ち出す高効率エージェント特化型で、同じ週に出てきた中華系MoEでも方向性がはっきり分かれている。

LLM 中華系AI MoE オープンモデル AIエージェントローカルLLM OpenRouter