技術 2026年2月7日(土) 約6分 Qwen3-TTS - pip一発で使えるオープンソース音声合成 Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月6日(金) 約6分 Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。 AI LLM オープンソース マルチモーダル 音声AI
技術 2026年2月5日(木) 約4分 UI-TARS-1.5-7B: GUIグラウンディングでSOTAを達成したVision AIエージェント ByteDanceが公開したUI-TARS-1.5-7Bの技術解説。スクリーンショットからGUI要素を特定する精度でOpenAI CUAやClaude 3.7を大幅に上回る。デスクトップアプリも提供され、ローカルで動作可能。 AI LLM エージェント オープンソース
技術 2026年2月4日(水) 約5分 Qwen3-Coder-Next: 3Bアクティブパラメータでローカル動作するコーディングエージェント Alibabaが公開したQwen3-Coder-Nextの技術解説。80Bパラメータながら3Bのみアクティベートする超効率MoEで、RTX 4090単体でも動作。SWE-Bench 70%超えの実力をローカルで。 AI LLM オープンソース エージェント
技術 2026年2月3日(火) 約3分 MOVA: オープンソース初の映像・音声同時生成モデル OpenMOSSチームが公開したMOVA-720pは、動画と音声を1回の推論で同時生成するオープンソースモデル。Vidu Q3などクローズドモデルとの違い、アーキテクチャの特徴をまとめた。 AI 動画生成 音声生成 オープンソース
技術 2026年2月3日(火) 約2分 PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。 AI 音声合成 音声認識 NVIDIA オープンソース
技術 2026年1月31日(土) 約4分 Kimi K2.5: 1兆パラメータMoEのネイティブマルチモーダルエージェントモデル Moonshot AIがリリースしたKimi K2.5の技術的特徴を紹介。1TパラメータMoEアーキテクチャ、MoonViTビジョンエンコーダー、Agent Swarm(PARL)、ベンチマーク結果など。 AI LLM オープンソース
技術 2026年1月31日(土) 約4分 Z-Image — FLUXを超えたと言われるAlibaba発の画像生成AI Alibabaが公開した画像生成モデルZ-Imageの特徴と、FLUX・Stable Diffusionとの比較。6Bパラメータで低VRAMながらオープンソース1位の実力。 画像生成AI Z-Image FLUX Stable Diffusion オープンソース
技術 2026年1月27日(火) 約5分 MySQLは死ぬのか?2026年のMySQL・MariaDB事情を整理した GitHubのコミット停滞、Oracleのレイオフ、コミュニティ会議でのフォーク議論。MySQLを取り巻く不穏な空気と、MariaDBの現状を整理した。 MySQL MariaDB データベース Oracle オープンソース
技術 2026年1月15日(木) 約4分 Pocket TTS - CPUで動く軽量テキスト音声合成 100MパラメータでCPU上でリアルタイムより高速に動作するオープンソースTTS。ボイスクローニングにも対応。 AI 音声合成 TTS オープンソース