技術 2026年6月8日(月) 約17分 LFM2.5 1.2B JP 202606をM1 Max 64GBで動かしたらデコード208tok/sでJSON守るがモデル名をハルシネーションした Liquid AIのLFM2.5-1.2B-JP-202606をM1 Max 64GBで実測。llama.cpp/Ollama/MLXの3系統でデコード速度・JSON構造化・ツール呼び出し・会話のナチュラルさ・長文入力を検証した。Q4_K_Mで208tok/s、Q8_0で157tok/sだがモデル名ハルシネーションが消える差も出た。 AI LLM ローカルLLM MLX Ollama Apple Silicon エッジAI 実験 日本語LLM
技術 2026年6月4日(木) 約15分 Gemma 4 12B UnifiedがVision Encoder 16層を行列積1回に置き換えたencoder-free設計 Gemma 4 12B UnifiedはVision Encoderを持たない。E4Bの150M 16層Transformerが35Mの線形投影に変わり、パッチ間アテンションはLLM本体48層の双方向アテンションに吸収されている。Fuyu、EVE、Mono-InternVLの先行研究から、encoder-free設計が何を捨てて何で補っているかを掘った。 AI LLM Google Gemma マルチモーダル ローカルLLM
技術 2026年5月26日(火) 約14分 Hy-MT2 1.8BをM1 Maxで動かす、1.25bit 440MB版は標準llama.cppでまだ動かない M1 Max 64GBでHy-MT2 1.8B Q4_K_M (1.08GB) をllama-serverに載せ、JSON・SRT・HTML・用語拘束・少数言語まで投げて入出力を確認。1.25bit 440MB版は標準llama.cppでロード不可、30B-A3B (hy_v3) もMacの標準ルートで動かない。 AI LLM 翻訳 ローカルLLM HuggingFace 量子化 MoE オープンソース Mac Apple Silicon 実験
技術 2026年5月14日(木) 約29分 oMLX 0.3.9.dev2をM1 Max 64GBで実測、SSD KVキャッシュ・Gemma 4 VLM MTP・DFlash・omlx launch copilot M1 Max 64GBにoMLX 0.3.9.dev2を入れて、SSD KVキャッシュ2回目prefill短縮、Gemma 4 VLM MTPオン/オフ、DFlash vs 通常エンジン、omlx launch copilotの実動作を順に測る。VLM入力はWAI-Animaで生成したかなちゃん画像で揃えた。 AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex 実験
技術 2026年5月13日(水) 更新 約7分 oMLX 0.3.9.dev2はMacローカルLLMをCodexやCopilotに寄せてきた oMLX 0.3.9.dev2のリリースノートを読む。Gemma 4 VLMのMTP、DFlash対応、SSD KVキャッシュ、`omlx launch copilot`まわりが、Codex/Copilotなど常駐エージェントをMacローカルLLMに繋ぐ時にどこへ効くかを整理した。 AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex
技術 2026年5月11日(月) 約5分 OllamaのCVE-2026-7482は公開API化したローカルLLMのメモリを読む Ollama 0.17.1未満のGGUFローダーに境界外読み取り脆弱性。公開API化したローカルLLMでは、環境変数、APIキー、system prompt、会話断片の漏えいまで疑う必要がある。 Ollama セキュリティ 脆弱性 CVE ローカルLLM LLM
技術 2026年5月7日(木) 約7分 Gemma 4 MTP drafterをM1 Max 64GBで実測、26B A4Bだけ速くなって31BとE4Bは遅くなった M1 Max 64GB + mlx-vlm 0.5.0でGemma 4 MTP drafterを実測。26B A4B (MoE) だけ+13%速くなり、公式が一番効くと言った31B DenseとE4Bは逆に遅くなった。コード生成と短文haikuで結論が反転する。 AI LLM Google Gemma ローカルLLM 推論 MLX 実験
技術 2026年5月6日(水) 更新 約9分 Gemma 4のMTP drafterで最大3倍高速化、ただし26B MoEはbatch 1で伸びにくい Google公式のGemma 4 MTP drafter公開を読む。最大3倍高速化の仕組み、vLLMの推奨設定、26B A4Bがbatch 1で伸びにくい理由まで確認した。 AI LLM Google Gemma ローカルLLM 推論
技術 2026年5月5日(火) 約9分 OllamaとローカルLLMでMCPサーバーを使うならブリッジが要る M1 Max 64GBでOllama経由のローカルLLMにMCPサーバーをつなぐと、MCPHostの非メンテ化、tool calling精度、コンテキスト消費で詰まる。公式SDKでの自作サーバー最小構成も載せた。 Ollama MCP ローカルLLM LLM AIエージェント
技術 2026年5月2日(土) 約22分 FastAPI・Chroma・Open WebUI・Ollamaでマルチモーダル日本語RAGをM1 Maxで組んだ DEV記事のPDF RAGをM1 Max 64GBで実装し、CLIPで画像、bge-m3 + Qwen3.6 35Bで日本語まで通した実験ログ。モダリティギャップ、推論サーバー並走クラッシュ、LLM-jp 4-8Bの指示追従失敗まで実機の挙動を記録。 AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Apple Silicon Ollama 日本語LLM 実験
技術 2026年5月2日(土) 更新 約11分 FastAPI・llama.cpp・Chroma・Open WebUIでPDF用ローカルRAGを組む記事を読んだ DEV Communityの記事をもとに、FastAPIでOpenAI互換RAG APIを作り、llama.cpp、Chroma、Open WebUIをつなぐ構成の位置づけと実装上の落とし穴を整理する。 AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Docker
技術 2026年4月30日(木) 約8分 Xiaomi MiMo-V2.5はMacやROCmで動かせるのか Xiaomi MiMo-V2.5のウェイト公開後、Mac/ROCmとクラウドGPU(RunPod/GCE)での実行可否を調べた。手元機ではまだ厳しいが、RunPodの4x H200で約14ドル/時間、GCE SpotのH100なら約1.6ドル/時間で動かせる。 AI LLM ローカルLLM Xiaomi MoE Apple Silicon ROCm llama.cpp