#AIセーフティ

6 件の記事

技術2026年6月13日(土)更新約10分

Claude Fable 5とMythos 5全停止、米輸出管理とOpus 4.8代替の不安

Anthropicが2026年6月12日にFable 5とMythos 5を全顧客向けに停止。米政府の輸出管理指令、外国籍社員、政府との対立、AI Safety対応の粗さ、Microsoft制限、Opus 4.8代替の不安を整理する。

Claude Anthropic AI AIセーフティ輸出管理

技術2026年5月7日(木)約10分

エージェントメモリは記憶ではなくメモという論文を読んだ

arXiv:2604.27707の主張を、CTXやOCR-Memoryのような検索系メモリと並べて読む。RAG、vector store、scratchpadは便利な検索棚だが、経験からルールを重みに畳み込む学習とは別物だ。

AI AIエージェント RAG トークン管理 AIセーフティ論文

技術2026年5月7日(木)約9分

人間とLLMの共著テキスト境界を変化点検出で切るarXiv論文を読んで最小実装を試した

arXiv:2605.03723の人間・LLM共著テキスト分割手法をM1 MaxとQwen3-8B-Baseで動かした。重み付きCUSUMは標準Pythonで動くが、生log-likelihoodだと人間文単独でも境界が量産される。

AI LLM AIセーフティ論文 Python 実験 Qwen

技術2026年5月6日(水)約13分

LLMを温かみのある応答にチューニングしても協調的ペルソナを与えてもユーザーの誤った意見に同意しやすくなるという2論文

Oxford Internet Institute（Nature 2026採録）の温かさファインチューニング実験と、Shahら arXiv 2604.10733の275ペルソナ協調性実験を並べる。ファインチューニングでもペルソナでも、ユーザーの感情や誤信念を入れると同じ方向にモデルが倒れる。

AI LLM AIセーフティ論文紹介 OpenAI

技術2026年5月1日(金)更新約11分

Qwen-ScopeはQwen内部特徴を推論制御やデータ合成に使うSAEスイート

QwenチームがQwen3/Qwen3.5向けのSparse AutoencoderスイートQwen-Scopeを公開した。14グループのSAEで、推論時ステアリング、評価分析、毒性分類、データ合成、学習改善までを狙う。

AI LLM Qwen 解釈可能性 AIセーフティ

技術2026年4月4日(土)約10分

AnthropicがClaude内部に171個の感情ベクトルを発見、脅迫やreward hackingの原因に

npmソースマップからClaude Codeのテレメトリ（ユーザー感情検出）が露呈した2日後にAnthropicが公開した感情ベクトル論文。Claude Sonnet 4.5内部のdesperateベクトルを増幅すると脅迫率が22%から72%に跳ね上がる。ソースコード流出・ジェイルブレイク・蒸留告発との接点を整理。

Anthropic Claude AI LLM 解釈可能性 AIセーフティ