技術 2026年4月3日(金) 約8分 LemonadeをStrix Halo (EVO-X2) で動かしたらVulkanの共有メモリ漏れとROCmの安定性が見えた AMD Lemonade v10.0.1をRyzen AI Max+ 395環境で検証。LLM・画像生成・音声認識・音声合成の4モデル同時起動、NPU Hybrid実行、Vulkan vs ROCmの実測比較と共有メモリ漏れの発見まで。 AMD ローカルLLM Vulkan ROCm NPU llama.cpp GPU 推論最適化 ベンチマーク 実験
技術 2026年3月26日(木) 約5分 ARC-AGI-3発表、インタラクティブ推論でフロンティアAIが1%未満 François Cholletらが新ベンチマークARC-AGI-3を公開。ゴール不明の未知環境を自律探索するインタラクティブタスクに、2026年3月時点のフロンティアLLMはすべて1%未満しか達成できていない。 AI ベンチマーク AGI Claude
技術 2026年2月19日(木) 更新 約7分 IT-BenchとMASTが示すAIエージェントのエンタープライズ業務における失敗構造 IBMとUC Berkeleyが公開したIT-BenchベンチマークとMAST障害分類法から、エンタープライズAIエージェントがなぜ失敗するかを掘り下げる。SRE成功率11%、FinOps 0%という現実と、Replit本番DB削除事件が示す実害。 AI AIエージェント IBM ベンチマーク