技術 2026年2月6日(金) 約6分 UltraFlux-v1 — FLUX.1-devベースのネイティブ4K画像生成モデル FLUX.1-devを4K生成に特化させたUltraFlux-v1の技術詳細。Z-ImageやFLUX.2 Kleinとのアプローチの違い、独自のRoPE拡張やVAE改良、実用面での注意点をまとめた。 AI 画像生成 FLUX 4K
技術 2026年2月6日(金) 約6分 Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。 AI LLM オープンソース マルチモーダル 音声AI
技術 2026年2月6日(金) 約5分 Anima — Cosmos-Predict2ベースの2Bアニメ画像生成モデル、現状と課題 CircleStone LabsとComfy Orgが共同開発したアニメ特化の画像生成モデル Anima。新アーキテクチャで注目されるが、プレビュー版の実力はどうか。既存のSDXL系モデルとの比較も含めて整理した。 画像生成AI ComfyUI アニメ
技術 2026年2月5日(木) 約4分 UI-TARS-1.5-7B: GUIグラウンディングでSOTAを達成したVision AIエージェント ByteDanceが公開したUI-TARS-1.5-7Bの技術解説。スクリーンショットからGUI要素を特定する精度でOpenAI CUAやClaude 3.7を大幅に上回る。デスクトップアプリも提供され、ローカルで動作可能。 AI LLM エージェント オープンソース
技術 2026年2月4日(水) 約5分 Qwen3-Coder-Next: 3Bアクティブパラメータでローカル動作するコーディングエージェント Alibabaが公開したQwen3-Coder-Nextの技術解説。80Bパラメータながら3Bのみアクティベートする超効率MoEで、RTX 4090単体でも動作。SWE-Bench 70%超えの実力をローカルで。 AI LLM オープンソース エージェント
技術 2026年2月4日(水) 約3分 ACE-Step 1.5:音楽生成AIがアーキテクチャごと刷新された ACE-Step V1.5がリリースされた。LM+DiTのハイブリッド構成、50言語対応、4GB VRAMで動作など、V1.0から大幅に進化している。 AI 音楽生成 ローカルAI
技術 2026年2月4日(水) 約3分 InfiniteTalk: Wan 2.1ベースの音声駆動リップシンク ComfyUI公式ワークフローとして公開されたInfiniteTalkは、音声ファイルから口パク動画を生成するリップシンク特化モデル。MOVAやVidu Q3との違い、必要なモデル構成をまとめた。 AI 動画生成 ComfyUI リップシンク
技術 2026年2月4日(水) 約4分 UI UX Pro Max Skill:AIのUI生成を改善するスキルを過去記事と比較してみた Claude Code等のAIコーディングアシスタント向けスキル「UI UX Pro Max Skill」を、過去に書いたUI/UX改善記事と比較。自動推論 vs 人間の意図、どちらのアプローチが効くのか。 Claude Code AI UI UX
技術 2026年2月4日(水) 約3分 AnimeGamer: ゲーム状態を理解してアニメ動画を生成するAI Tencent ARC Labが開発したAnimeGamerは、ゲームの状態遷移を理解しながらアニメスタイルの動画を生成する。汎用動画生成AIとは異なるアプローチ。 AI 動画生成 ゲーム アニメ