#AMD

10 件の記事

技術 2026年4月16日(木) 約13分

AMD ROCmのCUDA追い上げはどこまで来たか

EE TimesのAMD AI Software VP Anush Elangovan氏インタビューをベースに、ROCmとCUDAのエコシステム差を整理。Strix HaloでROCmを使い続けて4回壊れた実体験と、NVIDIA・AMD・Apple Siliconの実務での使い分けも。

AMD NVIDIA ROCm CUDA GPU AIインフラ PyTorch MLX Apple Silicon

技術 2026年4月6日(月) 約12分

LLM-jp-4-32B-A3BをROCm + Strix HaloでベンチマークしたらQwen3.5より41%速かった

NIIが公開したLLM-jp-4-32B-A3B-thinkingをEVO-X2（Ryzen AI Max+ 395）のROCmで動かした。62.9 t/sでQwen3.5-35B-A3Bの44.7 t/sを大きく上回るが、thinking制御やKVキャッシュ消費、知識カットオフに課題あり。日本語比較テストとコード生成テストの結果も。

AI LLM ローカルLLM llama.cpp AMD ROCm MoE Qwen 実験

技術 2026年4月3日(金) 約8分

LemonadeをStrix Halo (EVO-X2) で動かしたらVulkanの共有メモリ漏れとROCmの安定性が見えた

AMD Lemonade v10.0.1をRyzen AI Max+ 395環境で検証。LLM・画像生成・音声認識・音声合成の4モデル同時起動、NPU Hybrid実行、Vulkan vs ROCmの実測比較と共有メモリ漏れの発見まで。

AMD ローカルLLM Vulkan ROCm NPU llama.cpp GPU 推論最適化ベンチマーク実験

技術 2026年4月3日(金) 更新約9分

AMD公式のローカルAIサーバーLemonade、GPU+NPUを束ねてLLM・画像・音声を一元提供

AMDが開発するオープンソースのローカルAIサーバーLemonadeは、llama.cppやFastFlowLMなど複数バックエンドをGPU/NPU/CPU横断で管理し、OpenAI互換APIでテキスト・画像・音声を統合提供する。

AMD ローカルLLM NPU GPU llama.cpp 推論最適化 ROCm Vulkan

技術 2026年3月31日(火) 約8分

Qwen3.5-35B-A3Bでctx-sizeを4096→65536にしたらVRAM 800MB増で速度も変わらなかった

Qwen3.5-35B-A3BはSSM+Attentionハイブリッドで40層中10層しかKVキャッシュを使わない。llama-serverでctx-sizeを4096→65536に拡張してもVRAM増加は800MB、速度低下ゼロ。q8_0 KV量子化の実測とTurboQuantの現状も。

LLM ローカルLLM llama.cpp AMD Vulkan KVキャッシュ Qwen 実験

技術 2026年3月28日(土) 更新約15分

Radeon 8060S (gfx1151) のVulkanがAMDドライバ更新後に壊れた

GMKtec EVO-X2 (Ryzen AI Max+ 395) 環境でAMD Software 26.3.1更新後、Vulkanバックエンドがデバイスメモリを正常に確保できなくなりCPUフォールバックする問題の調査と解決記録。BIOS VRAM配分を32GB/32GBに変更することで解決。

AMD Vulkan GPU llama.cpp LLM 実験

技術 2026年3月1日(日) 約11分

Qwen 3.5がRadeon 8060Sで全滅した原因はAMDドライバだった

Qwen 3.5がROCm/Vulkanで動かない原因をCPU推論・llama-server・LM Studioで切り分けた結果、AMDドライバの更新で全て解決した。

AI LLM ローカルLLM AMD llama.cpp Ollama LM Studio 実験

技術 2026年2月28日(土) 更新約11分

abliteratedモデルをOllamaで動かそうとして全滅した話と、結局公式版で済んだ話

huihui-aiのQwen 3.5 abliteratedは全バリアントでゴミトークンを吐いて全滅。GLM-4.7-Flash abliteratedもテンプレート崩壊で使い物にならず、最終的に公式版+thinking無効が正解だった。

AI LLM Ollama ローカルLLM AMD LM Studio Vulkan ROCm 実験

技術 2026年2月15日(日) 更新約5分

Strix HaloのVRAM・メモリ配分を攻略する

GMKtec EVO-X2（Strix Halo）でローカルLLMを動かす際のVRAM/メインメモリ配分問題と解決策。VRAM 8GBでも29.6GBモデルが動いた実証付き。

AI LLM メモリ最適化 AMD LM Studio 実験

技術 2026年2月15日(日) 更新約5分

EVO-X2でローカルLLM環境を構築した

GMKtec EVO-X2（Strix Halo）でNSFW対応のローカルLLMを構築した記録。LM StudioとMS3.2-24B-Magnum-Diamondで約11 tokens/sのGPU推論を実現するまで。

AI LLM ローカルLLM LM Studio AMD 実験