#Gemma

4 件の記事

技術2026年6月4日(木)約15分

Gemma 4 12B UnifiedがVision Encoder 16層を行列積1回に置き換えたencoder-free設計

Gemma 4 12B UnifiedはVision Encoderを持たない。E4Bの150M 16層Transformerが35Mの線形投影に変わり、パッチ間アテンションはLLM本体48層の双方向アテンションに吸収されている。Fuyu、EVE、Mono-InternVLの先行研究から、encoder-free設計が何を捨てて何で補っているかを掘った。

AI LLM Google Gemma マルチモーダルローカルLLM

技術2026年5月7日(木)約7分

Gemma 4 MTP drafterをM1 Max 64GBで実測、26B A4Bだけ速くなって31BとE4Bは遅くなった

M1 Max 64GB + mlx-vlm 0.5.0でGemma 4 MTP drafterを実測。26B A4B (MoE) だけ+13%速くなり、公式が一番効くと言った31B DenseとE4Bは逆に遅くなった。コード生成と短文haikuで結論が反転する。

AI LLM Google Gemma ローカルLLM 推論 MLX 実験

技術2026年5月6日(水)更新約9分

Gemma 4のMTP drafterで最大3倍高速化、ただし26B MoEはbatch 1で伸びにくい

Google公式のGemma 4 MTP drafter公開を読む。最大3倍高速化の仕組み、vLLMの推奨設定、26B A4Bがbatch 1で伸びにくい理由まで確認した。

AI LLM Google Gemma ローカルLLM 推論

技術2026年4月14日(火)約14分

ローカルVision LLMでキャラ画像からRPGパラメータを抽出できるか試した

Gemma、Qwen2.5-VLなどのローカルVision LLMにキャラクターの立ち絵やドット絵を入力し、RPG風のステータスをJSON形式で返せるか実験した記録。

AI ローカルLLM VLM 画像認識 Ollama Gemma Qwen Apple Silicon 実験