技術 2026年2月7日(土) 約6分 Qwen3-TTS - pip一発で使えるオープンソース音声合成 Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月6日(金) 約6分 UltraFlux-v1 — FLUX.1-devベースのネイティブ4K画像生成モデル FLUX.1-devを4K生成に特化させたUltraFlux-v1の技術詳細。Z-ImageやFLUX.2 Kleinとのアプローチの違い、独自のRoPE拡張やVAE改良、実用面での注意点をまとめた。 AI 画像生成 FLUX 4K
技術 2026年2月6日(金) 約6分 Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。 AI LLM オープンソース マルチモーダル 音声AI
技術 2026年2月6日(金) 約5分 Anima — Cosmos-Predict2ベースの2Bアニメ画像生成モデル、現状と課題 CircleStone LabsとComfy Orgが共同開発したアニメ特化の画像生成モデル Anima。新アーキテクチャで注目されるが、プレビュー版の実力はどうか。既存のSDXL系モデルとの比較も含めて整理した。 画像生成AI ComfyUI アニメ