Liquid AIのLFM2.5-1.2B-JP-202606をM1 Max 64GBで実測。llama.cpp/Ollama/MLXの3系統でデコード速度・JSON構造化・ツール呼び出し・会話のナチュラルさ・長文入力を検証した。Q4_K_Mで208tok/s、Q8_0で157tok/sだがモデル名ハルシネーションが消える差も出た。
ローカルにあるWAI-Anima・WAI-IL(SDXL)・FLUX.2 Klein 4Bの3エンジンを、日本語プロンプトのまま叩ける薄いFastAPIラッパで束ねる。翻訳はOllama (gemma3:12b)、ComfyUIはAPIで動的にワークフロー組み立て、FLUX.2はmflux CLIをsubprocess、Tailscale経由でiPhoneからも生成できるようにした。