#解釈可能性

3 件の記事

技術2026年5月2日(土)約19分

Qwen-ScopeのSAEをM1 Max 64GBで動かして日本語特徴を取り出す

Qwen-ScopeのSparse AutoencoderをローカルのM1 Max 64GBで動かし、Qwen3-8B-Baseの中間層から日本語・英語・コード・中国語を弁別する特徴IDを取り出した記録。

AI LLM Qwen 解釈可能性実験 Apple Silicon MPS

技術2026年5月1日(金)更新約11分

Qwen-ScopeはQwen内部特徴を推論制御やデータ合成に使うSAEスイート

QwenチームがQwen3/Qwen3.5向けのSparse AutoencoderスイートQwen-Scopeを公開した。14グループのSAEで、推論時ステアリング、評価分析、毒性分類、データ合成、学習改善までを狙う。

AI LLM Qwen 解釈可能性 AIセーフティ

技術2026年4月4日(土)約10分

AnthropicがClaude内部に171個の感情ベクトルを発見、脅迫やreward hackingの原因に

npmソースマップからClaude Codeのテレメトリ（ユーザー感情検出）が露呈した2日後にAnthropicが公開した感情ベクトル論文。Claude Sonnet 4.5内部のdesperateベクトルを増幅すると脅迫率が22%から72%に跳ね上がる。ソースコード流出・ジェイルブレイク・蒸留告発との接点を整理。

Anthropic Claude AI LLM 解釈可能性 AIセーフティ