技術 2026年6月8日(月) 約17分 LFM2.5 1.2B JP 202606をM1 Max 64GBで動かしたらデコード208tok/sでJSON守るがモデル名をハルシネーションした Liquid AIのLFM2.5-1.2B-JP-202606をM1 Max 64GBで実測。llama.cpp/Ollama/MLXの3系統でデコード速度・JSON構造化・ツール呼び出し・会話のナチュラルさ・長文入力を検証した。Q4_K_Mで208tok/s、Q8_0で157tok/sだがモデル名ハルシネーションが消える差も出た。 AI LLM ローカルLLM MLX Ollama Apple Silicon エッジAI 実験 日本語LLM
技術 2026年5月14日(木) 約29分 oMLX 0.3.9.dev2をM1 Max 64GBで実測、SSD KVキャッシュ・Gemma 4 VLM MTP・DFlash・omlx launch copilot M1 Max 64GBにoMLX 0.3.9.dev2を入れて、SSD KVキャッシュ2回目prefill短縮、Gemma 4 VLM MTPオン/オフ、DFlash vs 通常エンジン、omlx launch copilotの実動作を順に測る。VLM入力はWAI-Animaで生成したかなちゃん画像で揃えた。 AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex 実験
技術 2026年5月13日(水) 更新 約7分 oMLX 0.3.9.dev2はMacローカルLLMをCodexやCopilotに寄せてきた oMLX 0.3.9.dev2のリリースノートを読む。Gemma 4 VLMのMTP、DFlash対応、SSD KVキャッシュ、`omlx launch copilot`まわりが、Codex/Copilotなど常駐エージェントをMacローカルLLMに繋ぐ時にどこへ効くかを整理した。 AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex
技術 2026年5月8日(金) 約10分 FLUX.2 Klein 9B + 9B NSFW LoRAをM1 Max 64GB / mflux 0.17.5で実機検証する M1 Max 64GBでFLUX.2 Klein 9B + diroverflo/FLux_Klein_9B_NSFWを実際に動かした記録。NSFWプロンプトで実際にNSFW画像が出ることまで確認。4bit量子化で512は1分51秒、1024は5分37秒、LoRAのオーバーヘッドはほぼゼロ AI 画像生成 FLUX Apple Silicon Mac MLX LoRA 実験
技術 2026年5月7日(木) 約7分 Gemma 4 MTP drafterをM1 Max 64GBで実測、26B A4Bだけ速くなって31BとE4Bは遅くなった M1 Max 64GB + mlx-vlm 0.5.0でGemma 4 MTP drafterを実測。26B A4B (MoE) だけ+13%速くなり、公式が一番効くと言った31B DenseとE4Bは逆に遅くなった。コード生成と短文haikuで結論が反転する。 AI LLM Google Gemma ローカルLLM 推論 MLX 実験
技術 2026年5月4日(月) 更新 約14分 FLUX.2 Kleinの成人向けLoRAはM1 Max環境でそのまま試せるのか FLUX.2 Klein 9B向けの成人向けLoRAをM1 Max 64GBで試せるか調べた。モデル互換性、LoRA適用経路、RunPod検証に加え、自前でLoRA学習する場合のVRAM要件やai-toolkitの設定も整理した。 AI 画像生成 FLUX Apple Silicon Mac MLX LoRA 実験
技術 2026年4月30日(木) 更新 約11分 mflux vs iris.cでFLUX.2 Klein 4Bを動かしたM1 Maxベンチ FLUX.2 Klein 4BをM1 Max 64GB上で、mflux(MLX)とiris.c(純C+Metal)の2系統で実機ベンチ。Pruna AIのH100前提チュートリアルへのカウンターとして、Apple Siliconで何秒で出るかを実測した。 AI 画像生成 FLUX Apple Silicon Mac MLX 実験
技術 2026年4月25日(土) 約10分 SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす Ant Group系列のinclusionAIが公開したLing-flash-2.0(bailing_moe、100B A6.1B、MXFP4量子化)をSwiftLMで食わせてみた記録。mlx-swift-lmのbailing_moe対応状況の確認から起動までを追う。 Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE MXFP4 Ant Group 実験
技術 2026年4月24日(金) 約12分 SwiftLMをM1 Max 64GBで動かしてOllama/MLX-lmと比べてみた Swift製LLM推論サーバーSwiftLMをM1 Max 64GBで実際にビルド・起動して、Qwen3.6-35B-A3Bと122B-A10Bの挙動を確認。BST・簡易BBS・かなちゃんペルソナの3系統で既存のOllama・MLX-lm検証と突き合わせた。 Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE 実験
技術 2026年4月23日(木) 約12分 Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。 LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験
技術 2026年4月19日(日) 約12分 WebAssemblyとMetalでゼロコピーGPU推論をApple Siliconに実装する mmap→MTLBuffer(bytesNoCopy)→Wasmtime MemoryCreatorの3段チェーンで、WasmリニアメモリとGPUバッファの物理アドレスを一致させる実装。M1上でLlama 3.2 1Bを9ms/tokenで動かした。 WebAssembly Metal AppleSilicon MLX Wasmtime LLM
技術 2026年4月16日(木) 約13分 AMD ROCmのCUDA追い上げはどこまで来たか EE TimesのAMD AI Software VP Anush Elangovan氏インタビューをベースに、ROCmとCUDAのエコシステム差を整理。Strix HaloでROCmを使い続けて4回壊れた実体験と、NVIDIA・AMD・Apple Siliconの実務での使い分けも。 AMD NVIDIA ROCm CUDA GPU AIインフラ PyTorch MLX Apple Silicon