H CompanyがHolotron-12Bを公開——ハイブリッドSSMアーキテクチャで推論スループット2倍超を実現したコンピューターユースAIエージェント

H CompanyがHolotron-12Bを公開——高スループット推論を実現したコンピューターユースエージェントモデル

フランスのAIスタートアップH Companyは2026年3月17日、マルチモーダルコンピューターユースモデル「Holotron-12B」をHugging Faceで公開した。NVIDIAが公開したオープンモデル「Nemotron-Nano-2 VL」をベースに、H Company独自のデータセットでポストトレーニングを施した本モデルは、エージェント向けの高スループット推論を主目的として設計されている。

なぜ作ったのか——エージェント特化の思想

現在主流のマルチモーダルモデルの多くは、静的な画像認識や指示への追従を最適化対象としている。これに対してHolotron-12Bは、コンピューターを実際に操作するAIエージェント(コンピューターユースエージェント)のポリシーモデルとして機能することを目指している。エージェントは「知覚→判断→行動」を繰り返しながらインタラクティブな環境で動作するため、長いコンテキストや複数画像を効率よく処理できる能力が求められる。

ハイブリッドSSMアーキテクチャが鍵

本モデルの推論効率を支えるのが、NemotronアーキテクチャのハイブリッドSSM(State-Space Model)と注意機構の組み合わせだ。

純粋なTransformerベースのモデルでは、トークン数が増えるにつれてKVキャッシュが線形に増大し、長文脈処理がVRAMのボトルネックとなる。これに対しSSMはシーケンス長に依存しない定数サイズの状態を保持するだけでよいため、メモリフットプリントが大幅に削減される。この特性がマルチ画像・長文脈のエージェントワークロードに特に効果的に働く。

ベンチマーク結果——スループット2倍超

WebVoyagerベンチマーク(並列ワーカー100件)での評価では、単一H100 GPU + vLLM(v0.14.1)の構成で以下の結果が得られた。

モデル 最大トークンスループット
Holo2-8B(従来モデル) 5,100 tokens/s
Holotron-12B 8,900 tokens/s

並列リクエスト数が増加するにつれてHolo2-8Bのスループットが頭打ちになるのに対し、Holotron-12Bは安定してスケールし続ける。同じハードウェア上でより大きな実効バッチサイズを処理できることが、この差を生んでいる。

用途と今後の展開

H Companyは、高スループットが求められるデータ生成・アノテーション・オンライン強化学習などのワークロードでの活用を想定している。また同社はNVIDIA Inceptionプログラムのメンバーであり、NVIDIAとの協業が本モデルの実現を後押しした。

モデルの重みとドキュメントはHugging Faceで公開されており、vLLMを通じて推論可能だ。コンピューターユースエージェントの実用化に向けた重要な一歩となる本モデルに、今後も注目したい。

※ この記事は海外ソースをAIで自動翻訳・要約したものです。翻訳・要約の過程で意味の相違や情報の欠落がある場合があります。正確な情報は必ず元記事をご確認ください。本記事の内容に基づいて行った行為について、運営者は一切の責任を負いません。