技術 2026年2月14日(土) 約5分 画像生成AIのVAEはなぜ重い? Qwen-ImageとHunyuanImageのアーキテクチャ比較 Qwen-Image-EditのVAE推論が重い理由と、HunyuanImage 2.1が採用した32x高圧縮VAEの設計思想の違いを解説。Kohya氏によるVAEメモリ最適化の動向も追う。 AI 画像生成 VAE Qwen HunyuanImage メモリ最適化
技術 2026年2月14日(土) 約6分 MimikaStudio - 複数TTSエンジンをGUIで束ねるローカルTTSアプリ Qwen3-TTS、Chatterbox、Kokoro、IndexTTS-2を一つのGUIに統合したローカルファーストのボイスクローン&TTS&オーディオブック作成アプリ。FastAPIバックエンド+Flutter UI+MCPサーバーの構成。 AI TTS 音声合成 ボイスクローン Flutter
技術 2026年2月13日(金) 約2分 ComfyUIのUpscaleがMac MPSで壊れる問題をcontiguousで直した Load Image経由のUpscaleで画像が崩壊する問題を、テンソルのnon-contiguous対策で修正した記録 ComfyUI Apple Silicon PyTorch MPS
技術 2026年2月12日(木) 約7分 MioTTS - コーデックから自作した軽量LLMベースTTS Aratakoが公開したMioTTS。独自コーデックMioCodecからフルスクラッチ開発された0.1B〜2.6Bの日英対応TTSモデル群。llama.cppやOllamaでそのまま動く設計が特徴的。 AI TTS 音声合成 オープンソース LLM