技術 2026年5月4日(月) 約12分 ファインチューニングでLLMの著作物丸暗記が再発火するというarXiv論文 GPT-4o、Gemini 2.5 Pro、DeepSeek-V3.1を対象に、要約から全文展開するファインチューニングで著作権書籍の逐語再現が増えると報告したarXiv論文を読んだ。 AI LLM 著作権 OpenAI Gemini DeepSeek ファインチューニング 論文
技術 2026年5月3日(日) 約9分 日本語プロンプトをOllamaで英訳してComfyUIとmfluxに投げるFastAPIラッパでAnima・WAI-IL・FLUX.2 KleinをまとめてWebUI化 ローカルにあるWAI-Anima・WAI-IL(SDXL)・FLUX.2 Klein 4Bの3エンジンを、日本語プロンプトのまま叩ける薄いFastAPIラッパで束ねる。翻訳はOllama (gemma3:12b)、ComfyUIはAPIで動的にワークフロー組み立て、FLUX.2はmflux CLIをsubprocess、Tailscale経由でiPhoneからも生成できるようにした。 AI 画像生成 ComfyUI FLUX Apple Silicon Mac Ollama FastAPI Tailscale 実験
技術 2026年5月2日(土) 約12分 VoteWise AIで見るNext.jsとGemini 2.5 Flashの選挙ガイドAI VoteWise AIは、選挙制度の説明を多言語チャット、音声、ストーリーモードに寄せたNext.js製の civic tech 実装。Gemini 2.5 Flashを政治・選挙文脈で使うときの設計上の注意点も整理する。 AI Gemini Next.js Firebase Google Cloud 設計
技術 2026年5月2日(土) 約22分 FastAPI・Chroma・Open WebUI・Ollamaでマルチモーダル日本語RAGをM1 Maxで組んだ DEV記事のPDF RAGをM1 Max 64GBで実装し、CLIPで画像、bge-m3 + Qwen3.6 35Bで日本語まで通した実験ログ。モダリティギャップ、推論サーバー並走クラッシュ、LLM-jp 4-8Bの指示追従失敗まで実機の挙動を記録。 AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Apple Silicon Ollama 日本語LLM 実験
技術 2026年5月2日(土) 更新 約11分 FastAPI・llama.cpp・Chroma・Open WebUIでPDF用ローカルRAGを組む記事を読んだ DEV Communityの記事をもとに、FastAPIでOpenAI互換RAG APIを作り、llama.cpp、Chroma、Open WebUIをつなぐ構成の位置づけと実装上の落とし穴を整理する。 AI LLM RAG ローカルLLM FastAPI llama.cpp Chroma Python Docker
技術 2026年5月2日(土) 約13分 OCR-Memoryはエージェントの履歴を画像として思い出す arXiv:2604.26622のOCR-Memoryを読んだ。エージェントの長い実行履歴を画像化し、Set-of-Markで該当箇所だけ選ばせ、元ログから逐語テキストを戻すメモリ方式だ。 AI AIエージェント OCR VLM RAG トークン管理 論文
技術 2026年5月2日(土) 約19分 Qwen-ScopeのSAEをM1 Max 64GBで動かして日本語特徴を取り出す Qwen-ScopeのSparse AutoencoderをローカルのM1 Max 64GBで動かし、Qwen3-8B-Baseの中間層から日本語・英語・コード・中国語を弁別する特徴IDを取り出した記録。 AI LLM Qwen 解釈可能性 実験 Apple Silicon MPS
技術 2026年5月1日(金) 更新 約11分 Qwen-ScopeはQwen内部特徴を推論制御やデータ合成に使うSAEスイート QwenチームがQwen3/Qwen3.5向けのSparse AutoencoderスイートQwen-Scopeを公開した。14グループのSAEで、推論時ステアリング、評価分析、毒性分類、データ合成、学習改善までを狙う。 AI LLM Qwen 解釈可能性 AIセーフティ
技術 2026年4月30日(木) 更新 約9分 NIIの48,000時間音声音響データセットはTTSの材料になる NII/LLMCが公開したCC AudioとArchive.org Audio Datasetを、URLリスト、メタデータ、TTS学習、Embedding解析の違いから読む。 AI 音声AI 音声合成 音声認識 TTS STT LLM 機械学習
技術 2026年4月30日(木) 更新 約11分 mflux vs iris.cでFLUX.2 Klein 4Bを動かしたM1 Maxベンチ FLUX.2 Klein 4BをM1 Max 64GB上で、mflux(MLX)とiris.c(純C+Metal)の2系統で実機ベンチ。Pruna AIのH100前提チュートリアルへのカウンターとして、Apple Siliconで何秒で出るかを実測した。 AI 画像生成 FLUX Apple Silicon Mac MLX 実験
技術 2026年4月30日(木) 約10分 信頼度スコアで文書抽出の人手確認を絞る フィールド単位の信頼度スコアで人手確認を絞る設計と、freee MCPで仕訳自動化を試して踏んだOCR・閾値の壁。 AI OCR VLM MCP AIエージェント API
技術 2026年4月30日(木) 約8分 Xiaomi MiMo-V2.5はMacやROCmで動かせるのか Xiaomi MiMo-V2.5のウェイト公開後、Mac/ROCmとクラウドGPU(RunPod/GCE)での実行可否を調べた。手元機ではまだ厳しいが、RunPodの4x H200で約14ドル/時間、GCE SpotのH100なら約1.6ドル/時間で動かせる。 AI LLM ローカルLLM Xiaomi MoE Apple Silicon ROCm llama.cpp