技術2026年6月4日(木)約15分Gemma 4 12B UnifiedがVision Encoder 16層を行列積1回に置き換えたencoder-free設計Gemma 4 12B UnifiedはVision Encoderを持たない。E4Bの150M 16層Transformerが35Mの線形投影に変わり、パッチ間アテンションはLLM本体48層の双方向アテンションに吸収されている。Fuyu、EVE、Mono-InternVLの先行研究から、encoder-free設計が何を捨てて何で補っているかを掘った。AILLMGoogleGemmaマルチモーダルローカルLLM
技術2026年5月19日(火)約9分ByteDance Lanceは3Bで画像と動画の理解・生成・編集をまとめたApache 2.0モデルByteDanceのLanceを一次情報で確認。3Bの統合マルチモーダルモデルで、画像・動画の理解、生成、編集を1つのCLIから扱える一方、推論には40GB以上のVRAMが要求される。AIマルチモーダル画像生成動画生成VLMオープンソースHuggingFace
技術2026年5月11日(月)約6分山火事避難AIの蒸留は制約を学習に混ぜる話だった山火事避難ルーティングAIで、通行止めやAQI制約を後処理ではなく蒸留ロスに入れる手法。ルールエンジンとの違い、画像を見ない生徒モデルの限界、エッジ推論23msの実用性を検討したAI機械学習マルチモーダルリアルタイム
技術2026年4月23日(木)更新約9分Xiaomi MiMo-V2.5とV2.5-Pro同時公開、1Mオムニモーダルと1000ツール呼び出しエージェントをAPI先行で提供XiaomiがMiMo-V2.5系列を2モデル同時公開。MiMo-V2.5-ProはSWE-bench Pro 57.2、Claw-Eval 63.8、τ3-Bench 72.9でフロンティア級、MiMo-V2.5はネイティブオムニモーダル+1M context。現時点ではAPI専用でローカル実行は不可、オープン化は予告のみ。AILLM中華系AIMoEAIエージェントマルチモーダルXiaomi
技術2026年4月10日(金)約10分Sentence Transformers v5.4でテキスト・画像・音声・動画の統合Embeddingが可能にSentence Transformers v5.4がマルチモーダル対応を追加。Qwen3-VL、NVIDIA Nemotronなど8つのEmbeddingモデルと4つのRerankerを統一APIで扱えるようになった。AIEmbeddingマルチモーダルRAGHuggingFacePython
技術2026年4月3日(金)更新約24分Google Gemma 4がE2BからA4Bまで4サイズ展開、Gemini 3由来の推論性能をApache 2.0で公開Google DeepMindがGemma 4をリリース。31B Dense、26B MoE(A4B)、E4B、E2Bの4モデルで、256Kコンテキスト、マルチモーダル入力、ツール呼び出し、140言語をサポートする。AILLMGoogleオープンモデルMoEマルチモーダルローカルLLM
技術2026年2月6日(金)約6分Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデルAlibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。AILLMオープンソースマルチモーダル音声AI