#MLX

13 件の記事

技術 2026年5月14日(木) 約29分

oMLX 0.3.9.dev2をM1 Max 64GBで実測、SSD KVキャッシュ・Gemma 4 VLM MTP・DFlash・omlx launch copilot

M1 Max 64GBにoMLX 0.3.9.dev2を入れて、SSD KVキャッシュ2回目prefill短縮、Gemma 4 VLM MTPオン/オフ、DFlash vs 通常エンジン、omlx launch copilotの実動作を順に測る。VLM入力はWAI-Animaで生成したかなちゃん画像で揃えた。

AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex 実験

技術 2026年5月13日(水) 更新約7分

oMLX 0.3.9.dev2はMacローカルLLMをCodexやCopilotに寄せてきた

oMLX 0.3.9.dev2のリリースノートを読む。Gemma 4 VLMのMTP、DFlash対応、SSD KVキャッシュ、`omlx launch copilot`まわりが、Codex/Copilotなど常駐エージェントをMacローカルLLMに繋ぐ時にどこへ効くかを整理した。

AI LLM ローカルLLM Apple Silicon MLX 推論最適化 Codex

技術 2026年5月8日(金) 約10分

FLUX.2 Klein 9B + 9B NSFW LoRAをM1 Max 64GB / mflux 0.17.5で実機検証する

M1 Max 64GBでFLUX.2 Klein 9B + diroverflo/FLux_Klein_9B_NSFWを実際に動かした記録。NSFWプロンプトで実際にNSFW画像が出ることまで確認。4bit量子化で512は1分51秒、1024は5分37秒、LoRAのオーバーヘッドはほぼゼロ

AI 画像生成 FLUX Apple Silicon Mac MLX LoRA 実験

技術 2026年5月7日(木) 約7分

Gemma 4 MTP drafterをM1 Max 64GBで実測、26B A4Bだけ速くなって31BとE4Bは遅くなった

M1 Max 64GB + mlx-vlm 0.5.0でGemma 4 MTP drafterを実測。26B A4B (MoE) だけ+13%速くなり、公式が一番効くと言った31B DenseとE4Bは逆に遅くなった。コード生成と短文haikuで結論が反転する。

AI LLM Google Gemma ローカルLLM 推論 MLX 実験

技術 2026年5月4日(月) 更新約14分

FLUX.2 Kleinの成人向けLoRAはM1 Max環境でそのまま試せるのか

FLUX.2 Klein 9B向けの成人向けLoRAをM1 Max 64GBで試せるか調べた。モデル互換性、LoRA適用経路、RunPod検証に加え、自前でLoRA学習する場合のVRAM要件やai-toolkitの設定も整理した。

AI 画像生成 FLUX Apple Silicon Mac MLX LoRA 実験

技術 2026年4月30日(木) 更新約11分

mflux vs iris.cでFLUX.2 Klein 4Bを動かしたM1 Maxベンチ

FLUX.2 Klein 4BをM1 Max 64GB上で、mflux（MLX）とiris.c（純C+Metal）の2系統で実機ベンチ。Pruna AIのH100前提チュートリアルへのカウンターとして、Apple Siliconで何秒で出るかを実測した。

AI 画像生成 FLUX Apple Silicon Mac MLX 実験

技術 2026年4月25日(土) 約10分

SwiftLMで非Qwen系MoEのLing-flash-2.0 MXFP4をM1 Max 64GBで動かす

Ant Group系列のinclusionAIが公開したLing-flash-2.0（bailing_moe、100B A6.1B、MXFP4量子化）をSwiftLMで食わせてみた記録。mlx-swift-lmのbailing_moe対応状況の確認から起動までを追う。

Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE MXFP4 Ant Group 実験

技術 2026年4月24日(金) 約12分

SwiftLMをM1 Max 64GBで動かしてOllama/MLX-lmと比べてみた

Swift製LLM推論サーバーSwiftLMをM1 Max 64GBで実際にビルド・起動して、Qwen3.6-35B-A3Bと122B-A10Bの挙動を確認。BST・簡易BBS・かなちゃんペルソナの3系統で既存のOllama・MLX-lm検証と突き合わせた。

Apple Silicon LLM MLX ローカルLLM Swift SwiftLM MoE 実験

技術 2026年4月23日(木) 約12分

Qwen3.6-27B DenseとQwen3.6-35B-A3B MoEをM1 Maxで比べたらMLXがOllamaの2倍速だった

Qwen3.6-27BをOllama/MLX両方で試したらOllamaはVLプロジェクタ付きGGUFをロードできず、MLXでは11 tok/sで動いた。ついでに35B-A3BをMLXで動かしたらOllama GGUFの2倍速。BBSを両モデルに作らせて意図汲み取りの差も見た。

LLM ローカルLLM Qwen Ollama MLX Apple Silicon MoE 実験

技術 2026年4月19日(日) 約12分

WebAssemblyとMetalでゼロコピーGPU推論をApple Siliconに実装する

mmap→MTLBuffer(bytesNoCopy)→Wasmtime MemoryCreatorの3段チェーンで、WasmリニアメモリとGPUバッファの物理アドレスを一致させる実装。M1上でLlama 3.2 1Bを9ms/tokenで動かした。

WebAssembly Metal AppleSilicon MLX Wasmtime LLM

技術 2026年4月16日(木) 約13分

AMD ROCmのCUDA追い上げはどこまで来たか

EE TimesのAMD AI Software VP Anush Elangovan氏インタビューをベースに、ROCmとCUDAのエコシステム差を整理。Strix HaloでROCmを使い続けて4回壊れた実体験と、NVIDIA・AMD・Apple Siliconの実務での使い分けも。

AMD NVIDIA ROCm CUDA GPU AIインフラ PyTorch MLX Apple Silicon

技術 2026年4月2日(木) 更新約13分

SwiftLMはTurboQuantとSSDストリーミングをMetalシェーダーに統合したSwift製LLM推論サーバー

Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。

Apple Silicon LLM MLX ローカルLLM 推論最適化 KVキャッシュ MoE Swift