技術 約4分で読めます

PC操作AIが1.7倍速くなったHolotron-12Bと、コード不要でAIを自分好みに調整できるUnsloth Studio

AIモデルの効率化が2つの方向で同時に進んでいる。「モデル自体の設計を工夫して速くする」方向と、「モデルの調整・運用をもっと手軽にする」方向だ。今週はその両方で面白い発表があった。

H CompanyのHolotron-12Bは、メモリの使い方を工夫した新設計でPC操作AIの処理速度を大幅に向上させた。UnslothはAIモデルの追加学習(自分のデータで賢くすること)をコード不要でできるブラウザツール「Studio」をベータ公開した。

Holotron-12B:メモリ効率を改善してPC操作AIを高速化

H CompanyがHolotron-12Bを公開した。NVIDIAのNemotronモデルをベースに、メモリ消費を抑える新しい設計を取り入れたPC操作に特化したAIだ。

なぜメモリが問題になるのか

一般的なAIモデル(Transformer)は、過去のやり取りを全部覚えておく仕組みになっている。会話が長くなるほど「記憶領域」(KVキャッシュと呼ばれる)が膨らんでいく。

PC操作AIの場合、これが特に厄介だ。「さっきどのボタンを押したか」「3手順前の画面はどうだったか」という操作履歴を保持しつつ、今表示されている画面も高解像度で処理しないといけない。記憶領域がすぐにパンクする。

Holotron-12Bはここに「SSM(状態空間モデル)」という別の仕組みを組み合わせた。SSMは過去の情報を固定サイズに圧縮して持つので、会話が長くなってもメモリが増えない。

方式メモリの増え方
従来型(Transformer)やり取りが長くなるほど増え続ける
SSMのみ常に一定(過去を圧縮して保持)
両方の組み合わせ(Holotron)長い履歴はSSMで圧縮 + 直近の細かい判断はTransformer

SSMだけだと「直前の操作」のような近い情報の扱いが雑になることがある。Holotronは長い履歴の記憶はSSMに任せ、直近の細かい判断は従来のTransformerに任せるという使い分けをしている。

どれくらい賢くなったか

WebVoyager(実際のWebサイトを操作させるテスト)の正解率は、ベースモデルの35.1%から80.5%に向上した。前世代のHolo2-8Bと同等の賢さを維持しつつ、処理速度を大幅に改善している。

画面上のボタンやテキスト欄の位置を正確に見つける能力(グラウンディング)も複数のテストで大きく改善されたと報告されているが、具体的な数値は非公開だ。

処理速度の比較

同じGPU(H100 × 1枚)で前世代と比較した結果がこちら。

モデル最大処理速度
Holo2-8B(前世代)毎秒5,100トークン
Holotron-12B毎秒8,900トークン

前世代は同時処理数を増やすと早い段階で頭打ちになっていたが、Holotron-12Bは同時処理数に比例して速度が伸び続ける。大量のタスクを並行して走らせるような使い方で差が出る。

訓練の仕組み

NVIDIAのNemotronモデルを出発点に、H Companyが集めた約14億トークン分のデータで追加学習を行った。学習データは「画面の内容を理解する」「画面上の要素の位置を特定する」「UIを操作する」という3種類のタスクで構成されている。

ライセンスはNVIDIA Open Model Licenseで、HuggingFaceからすぐに使える。次世代ではさらに効率化を進め、企業向けの安定版を目指すとしている。

Unsloth Studio:コードを書かずにAIモデルを自分好みに調整

UnslothがStudioをベータリリースした。AIモデルの追加学習・動作確認・書き出しを、すべてブラウザ上の画面操作だけで完結できるオープンソースのツールだ。

Unsloth本体はもともと「追加学習を2倍速く、メモリ使用量を70%削減」できるPythonライブラリとして知られていた。ただしコマンドラインやJupyter Notebookでの操作が前提で、プログラミングの知識が必要だった。Studioはこれをブラウザの画面操作だけで使えるようにしたもの。

主な機能

対応モデルは500種類以上。テキスト、画像認識、音声合成など幅広いジャンルをカバーする。

機能必要な環境
追加学習NVIDIA GPU(RTX 30/40/50系)
動作確認(推論)CPUだけでもOK、Macも対応
Macでの追加学習開発中(近日対応予定)
  • データセット自動生成: PDF・CSV・JSON・DOCX・TXTをアップロードすると、学習用のデータセットを自動で作ってくれる。社内ドキュメントをそのまま学習データに変換できるイメージ
  • Model Arena: 2つのモデルを同時に読み込んで、同じ質問に対する回答を並べて比較できる
  • エクスポート: 学習済みモデルをOllama・LM Studioなどの主要ツールで使える形式に書き出せる

すべてローカルで動く

「100%オフライン・ローカル動作」を掲げている。データが外部に送信されないので、社内の機密データでAIを追加学習させたいケースでも安心して使える。

現時点でMacは動作確認(推論)のみ対応。Mac上での追加学習は近日対応予定とされている。

これまでUnsloth + Jupyter + Ollamaと複数のツールを組み合わせていた作業が、一つの画面で完結するようになった。ベータ版なのでまだ荒い部分もあるだろうが、「自分のデータでAIを調整したいけどコードは書きたくない」という層にはちょうどいいツールになりそうだ。