PC操作AIが1.7倍速くなったHolotron-12Bと、コード不要でAIを自分好みに調整できるUnsloth Studio
AIモデルの効率化が2つの方向で同時に進んでいる。「モデル自体の設計を工夫して速くする」方向と、「モデルの調整・運用をもっと手軽にする」方向だ。今週はその両方で面白い発表があった。
H CompanyのHolotron-12Bは、メモリの使い方を工夫した新設計でPC操作AIの処理速度を大幅に向上させた。UnslothはAIモデルの追加学習(自分のデータで賢くすること)をコード不要でできるブラウザツール「Studio」をベータ公開した。
Holotron-12B:メモリ効率を改善してPC操作AIを高速化
H CompanyがHolotron-12Bを公開した。NVIDIAのNemotronモデルをベースに、メモリ消費を抑える新しい設計を取り入れたPC操作に特化したAIだ。
なぜメモリが問題になるのか
一般的なAIモデル(Transformer)は、過去のやり取りを全部覚えておく仕組みになっている。会話が長くなるほど「記憶領域」(KVキャッシュと呼ばれる)が膨らんでいく。
PC操作AIの場合、これが特に厄介だ。「さっきどのボタンを押したか」「3手順前の画面はどうだったか」という操作履歴を保持しつつ、今表示されている画面も高解像度で処理しないといけない。記憶領域がすぐにパンクする。
Holotron-12Bはここに「SSM(状態空間モデル)」という別の仕組みを組み合わせた。SSMは過去の情報を固定サイズに圧縮して持つので、会話が長くなってもメモリが増えない。
| 方式 | メモリの増え方 |
|---|---|
| 従来型(Transformer) | やり取りが長くなるほど増え続ける |
| SSMのみ | 常に一定(過去を圧縮して保持) |
| 両方の組み合わせ(Holotron) | 長い履歴はSSMで圧縮 + 直近の細かい判断はTransformer |
SSMだけだと「直前の操作」のような近い情報の扱いが雑になることがある。Holotronは長い履歴の記憶はSSMに任せ、直近の細かい判断は従来のTransformerに任せるという使い分けをしている。
どれくらい賢くなったか
WebVoyager(実際のWebサイトを操作させるテスト)の正解率は、ベースモデルの35.1%から80.5%に向上した。前世代のHolo2-8Bと同等の賢さを維持しつつ、処理速度を大幅に改善している。
画面上のボタンやテキスト欄の位置を正確に見つける能力(グラウンディング)も複数のテストで大きく改善されたと報告されているが、具体的な数値は非公開だ。
処理速度の比較
同じGPU(H100 × 1枚)で前世代と比較した結果がこちら。
| モデル | 最大処理速度 |
|---|---|
| Holo2-8B(前世代) | 毎秒5,100トークン |
| Holotron-12B | 毎秒8,900トークン |
前世代は同時処理数を増やすと早い段階で頭打ちになっていたが、Holotron-12Bは同時処理数に比例して速度が伸び続ける。大量のタスクを並行して走らせるような使い方で差が出る。
訓練の仕組み
NVIDIAのNemotronモデルを出発点に、H Companyが集めた約14億トークン分のデータで追加学習を行った。学習データは「画面の内容を理解する」「画面上の要素の位置を特定する」「UIを操作する」という3種類のタスクで構成されている。
ライセンスはNVIDIA Open Model Licenseで、HuggingFaceからすぐに使える。次世代ではさらに効率化を進め、企業向けの安定版を目指すとしている。
Unsloth Studio:コードを書かずにAIモデルを自分好みに調整
UnslothがStudioをベータリリースした。AIモデルの追加学習・動作確認・書き出しを、すべてブラウザ上の画面操作だけで完結できるオープンソースのツールだ。
Unsloth本体はもともと「追加学習を2倍速く、メモリ使用量を70%削減」できるPythonライブラリとして知られていた。ただしコマンドラインやJupyter Notebookでの操作が前提で、プログラミングの知識が必要だった。Studioはこれをブラウザの画面操作だけで使えるようにしたもの。
主な機能
対応モデルは500種類以上。テキスト、画像認識、音声合成など幅広いジャンルをカバーする。
| 機能 | 必要な環境 |
|---|---|
| 追加学習 | NVIDIA GPU(RTX 30/40/50系) |
| 動作確認(推論) | CPUだけでもOK、Macも対応 |
| Macでの追加学習 | 開発中(近日対応予定) |
- データセット自動生成: PDF・CSV・JSON・DOCX・TXTをアップロードすると、学習用のデータセットを自動で作ってくれる。社内ドキュメントをそのまま学習データに変換できるイメージ
- Model Arena: 2つのモデルを同時に読み込んで、同じ質問に対する回答を並べて比較できる
- エクスポート: 学習済みモデルをOllama・LM Studioなどの主要ツールで使える形式に書き出せる
すべてローカルで動く
「100%オフライン・ローカル動作」を掲げている。データが外部に送信されないので、社内の機密データでAIを追加学習させたいケースでも安心して使える。
現時点でMacは動作確認(推論)のみ対応。Mac上での追加学習は近日対応予定とされている。
これまでUnsloth + Jupyter + Ollamaと複数のツールを組み合わせていた作業が、一つの画面で完結するようになった。ベータ版なのでまだ荒い部分もあるだろうが、「自分のデータでAIを調整したいけどコードは書きたくない」という層にはちょうどいいツールになりそうだ。