技術 2026年6月8日(月) 約17分 LFM2.5 1.2B JP 202606をM1 Max 64GBで動かしたらデコード208tok/sでJSON守るがモデル名をハルシネーションした Liquid AIのLFM2.5-1.2B-JP-202606をM1 Max 64GBで実測。llama.cpp/Ollama/MLXの3系統でデコード速度・JSON構造化・ツール呼び出し・会話のナチュラルさ・長文入力を検証した。Q4_K_Mで208tok/s、Q8_0で157tok/sだがモデル名ハルシネーションが消える差も出た。 AI LLM ローカルLLM MLX Ollama Apple Silicon エッジAI 実験 日本語LLM
技術 2026年5月2日(土) 約22分 FastAPI・Chroma・Open WebUI・Ollamaでマルチモーダル日本語RAGをM1 Maxで組んだ DEV記事のPDF RAGをM1 Max 64GBで実装し、CLIPで画像、bge-m3 + Qwen3.6 35Bで日本語まで通した実験ログ。モダリティギャップ、推論サーバー並走クラッシュ、LLM-jp 4-8Bの指示追従失敗まで実機の挙動を記録。 AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Apple Silicon Ollama 日本語LLM 実験