技術 2026年5月11日(月) 約6分 山火事避難AIの蒸留は制約を学習に混ぜる話だった 山火事避難ルーティングAIで、通行止めやAQI制約を後処理ではなく蒸留ロスに入れる手法。ルールエンジンとの違い、画像を見ない生徒モデルの限界、エッジ推論23msの実用性を検討した AI 機械学習 マルチモーダル リアルタイム
技術 2026年4月23日(木) 更新 約9分 Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供 XiaomiがMiMo-V2.5系列を2モデル同時公開。MiMo-V2.5-ProはSWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9でフロンティア級、MiMo-V2.5はネイティブオムニモーダル+1M context。現時点ではAPI専用でローカル実行は不可、オープン化は予告のみ。 AI LLM 中華系AI MoE AIエージェント マルチモーダル Xiaomi
技術 2026年4月10日(金) 約10分 Sentence Transformers v5.4でテキスト・画像・音声・動画の統合Embeddingが可能に Sentence Transformers v5.4がマルチモーダル対応を追加。Qwen3-VL、NVIDIA Nemotronなど8つのEmbeddingモデルと4つのRerankerを統一APIで扱えるようになった。 AI Embedding マルチモーダル RAG HuggingFace Python
技術 2026年4月3日(金) 更新 約23分 Google Gemma 4がE2BからA4Bまで4サイズ展開、Gemini 3由来の推論性能をApache 2.0で公開 Google DeepMindがGemma 4をリリース。31B Dense、26B MoE(A4B)、E4B、E2Bの4モデルで、256Kコンテキスト、マルチモーダル入力、ツール呼び出し、140言語をサポートする。 AI LLM Google オープンモデル MoE マルチモーダル ローカルLLM
技術 2026年2月6日(金) 約6分 Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。 AI LLM オープンソース マルチモーダル 音声AI