#マルチモーダル

7 件の記事

技術2026年6月4日(木)約15分

Gemma 4 12B UnifiedがVision Encoder 16層を行列積1回に置き換えたencoder-free設計

Gemma 4 12B UnifiedはVision Encoderを持たない。E4Bの150M 16層Transformerが35Mの線形投影に変わり、パッチ間アテンションはLLM本体48層の双方向アテンションに吸収されている。Fuyu、EVE、Mono-InternVLの先行研究から、encoder-free設計が何を捨てて何で補っているかを掘った。

AI LLM Google Gemma マルチモーダルローカルLLM

技術2026年5月19日(火)約9分

ByteDance Lanceは3Bで画像と動画の理解・生成・編集をまとめたApache 2.0モデル

ByteDanceのLanceを一次情報で確認。3Bの統合マルチモーダルモデルで、画像・動画の理解、生成、編集を1つのCLIから扱える一方、推論には40GB以上のVRAMが要求される。

AI マルチモーダル画像生成動画生成 VLM オープンソース HuggingFace

技術2026年5月11日(月)約6分

山火事避難AIの蒸留は制約を学習に混ぜる話だった

山火事避難ルーティングAIで、通行止めやAQI制約を後処理ではなく蒸留ロスに入れる手法。ルールエンジンとの違い、画像を見ない生徒モデルの限界、エッジ推論23msの実用性を検討した

AI 機械学習マルチモーダルリアルタイム

技術2026年4月23日(木)更新約9分

Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供

XiaomiがMiMo-V2.5系列を2モデル同時公開。MiMo-V2.5-ProはSWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9でフロンティア級、MiMo-V2.5はネイティブオムニモーダル＋1M context。現時点ではAPI専用でローカル実行は不可、オープン化は予告のみ。

AI LLM 中華系AI MoE AIエージェントマルチモーダル Xiaomi

技術2026年4月10日(金)約10分

Sentence Transformers v5.4でテキスト・画像・音声・動画の統合Embeddingが可能に

Sentence Transformers v5.4がマルチモーダル対応を追加。Qwen3-VL、NVIDIA Nemotronなど8つのEmbeddingモデルと4つのRerankerを統一APIで扱えるようになった。

AI Embedding マルチモーダル RAG HuggingFace Python

技術2026年4月3日(金)更新約24分

Google Gemma 4がE2BからA4Bまで4サイズ展開、Gemini 3由来の推論性能をApache 2.0で公開

Google DeepMindがGemma 4をリリース。31B Dense、26B MoE（A4B）、E4B、E2Bの4モデルで、256Kコンテキスト、マルチモーダル入力、ツール呼び出し、140言語をサポートする。

AI LLM Google オープンモデル MoE マルチモーダルローカルLLM

技術2026年2月6日(金)約6分

Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル

Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。

AI LLM オープンソースマルチモーダル音声AI