技術 2026年4月10日(金) 約10分 Sentence Transformers v5.4でテキスト・画像・音声・動画の統合Embeddingが可能に Sentence Transformers v5.4がマルチモーダル対応を追加。Qwen3-VL、NVIDIA Nemotronなど8つのEmbeddingモデルと4つのRerankerを統一APIで扱えるようになった。 AI Embedding マルチモーダル RAG HuggingFace Python
技術 2026年4月3日(金) 約23分 Google Gemma 4がE2BからA4Bまで4サイズ展開、Gemini 3由来の推論性能をApache 2.0で公開 Google DeepMindがGemma 4をリリース。31B Dense、26B MoE(A4B)、E4B、E2Bの4モデルで、256Kコンテキスト、マルチモーダル入力、ツール呼び出し、140言語をサポートする。 AI LLM Google オープンモデル MoE マルチモーダル ローカルLLM
技術 2026年2月6日(金) 約6分 Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。 AI LLM オープンソース マルチモーダル 音声AI