技術 2026年4月6日(月) 約12分 LLM-jp-4-32B-A3BをROCm + Strix HaloでベンチマークしたらQwen3.5より41%速かった NIIが公開したLLM-jp-4-32B-A3B-thinkingをEVO-X2(Ryzen AI Max+ 395)のROCmで動かした。62.9 t/sでQwen3.5-35B-A3Bの44.7 t/sを大きく上回るが、thinking制御やKVキャッシュ消費、知識カットオフに課題あり。日本語比較テストとコード生成テストの結果も。 AI LLM ローカルLLM llama.cpp AMD ROCm MoE Qwen 実験
技術 2026年4月3日(金) 約8分 LemonadeをStrix Halo (EVO-X2) で動かしたらVulkanの共有メモリ漏れとROCmの安定性が見えた AMD Lemonade v10.0.1をRyzen AI Max+ 395環境で検証。LLM・画像生成・音声認識・音声合成の4モデル同時起動、NPU Hybrid実行、Vulkan vs ROCmの実測比較と共有メモリ漏れの発見まで。 AMD ローカルLLM Vulkan ROCm NPU llama.cpp GPU 推論最適化 ベンチマーク 実験
技術 2026年4月3日(金) 更新 約9分 AMD公式のローカルAIサーバーLemonade、GPU+NPUを束ねてLLM・画像・音声を一元提供 AMDが開発するオープンソースのローカルAIサーバーLemonadeは、llama.cppやFastFlowLMなど複数バックエンドをGPU/NPU/CPU横断で管理し、OpenAI互換APIでテキスト・画像・音声を統合提供する。 AMD ローカルLLM NPU GPU llama.cpp 推論最適化 ROCm Vulkan
技術 2026年2月28日(土) 更新 約11分 abliteratedモデルをOllamaで動かそうとして全滅した話と、結局公式版で済んだ話 huihui-aiのQwen 3.5 abliteratedは全バリアントでゴミトークンを吐いて全滅。GLM-4.7-Flash abliteratedもテンプレート崩壊で使い物にならず、最終的に公式版+thinking無効が正解だった。 AI LLM Ollama ローカルLLM AMD LM Studio Vulkan ROCm 実験