技術 2026年3月31日(火) 約8分 Qwen3.5-35B-A3Bでctx-sizeを4096→65536にしたらVRAM 800MB増で速度も変わらなかった Qwen3.5-35B-A3BはSSM+Attentionハイブリッドで40層中10層しかKVキャッシュを使わない。llama-serverでctx-sizeを4096→65536に拡張してもVRAM増加は800MB、速度低下ゼロ。q8_0 KV量子化の実測とTurboQuantの現状も。 LLM ローカルLLM llama.cpp AMD Vulkan KVキャッシュ Qwen 実験
技術 2026年3月28日(土) 更新 約15分 Radeon 8060S (gfx1151) のVulkanがAMDドライバ更新後に壊れた GMKtec EVO-X2 (Ryzen AI Max+ 395) 環境でAMD Software 26.3.1更新後、Vulkanバックエンドがデバイスメモリを正常に確保できなくなりCPUフォールバックする問題の調査と解決記録。BIOS VRAM配分を32GB/32GBに変更することで解決。 AMD Vulkan GPU llama.cpp LLM 実験
技術 2026年3月1日(日) 約11分 Qwen 3.5がRadeon 8060Sで全滅した原因はAMDドライバだった Qwen 3.5がROCm/Vulkanで動かない原因をCPU推論・llama-server・LM Studioで切り分けた結果、AMDドライバの更新で全て解決した。 AI LLM ローカルLLM AMD llama.cpp Ollama LM Studio 実験
技術 2026年2月28日(土) 更新 約11分 abliteratedモデルをOllamaで動かそうとして全滅した話と、結局公式版で済んだ話 huihui-aiのQwen 3.5 abliteratedは全バリアントでゴミトークンを吐いて全滅。GLM-4.7-Flash abliteratedもテンプレート崩壊で使い物にならず、最終的に公式版+thinking無効が正解だった。 AI LLM Ollama ローカルLLM AMD LM Studio Vulkan ROCm 実験
技術 2026年2月15日(日) 更新 約5分 Strix HaloのVRAM・メモリ配分を攻略する GMKtec EVO-X2(Strix Halo)でローカルLLMを動かす際のVRAM/メインメモリ配分問題と解決策。VRAM 8GBでも29.6GBモデルが動いた実証付き。 AI LLM メモリ最適化 AMD LM Studio 実験
技術 2026年2月15日(日) 更新 約5分 EVO-X2でローカルLLM環境を構築した GMKtec EVO-X2(Strix Halo)でNSFW対応のローカルLLMを構築した記録。LM StudioとMS3.2-24B-Magnum-Diamondで約11 tokens/sのGPU推論を実現するまで。 AI LLM ローカルLLM LM Studio AMD 実験