H CompanyがHolotron-12Bを公開——ハイブリッドSSMアーキテクチャで推論スループット2倍超を実現したコンピューターユースAIエージェント

H CompanyがHolotron-12Bを公開——高スループット推論を実現したコンピューターユースエージェントモデル

フランスのAIスタートアップH Companyは2026年3月17日、マルチモーダルコンピューターユースモデル「Holotron-12B」をHugging Faceで公開した。NVIDIAが公開したオープンモデル「Nemotron-Nano-2 VL」をベースに、H Company独自のデータセットでポストトレーニングを施した本モデルは、エージェント向けの高スループット推論を主目的として設計されている。

なぜ作ったのか——エージェント特化の思想

現在主流のマルチモーダルモデルの多くは、静的な画像認識や指示への追従を最適化対象としている。これに対してHolotron-12Bは、コンピューターを実際に操作するAIエージェント（コンピューターユースエージェント）のポリシーモデルとして機能することを目指している。エージェントは「知覚→判断→行動」を繰り返しながらインタラクティブな環境で動作するため、長いコンテキストや複数画像を効率よく処理できる能力が求められる。

ハイブリッドSSMアーキテクチャが鍵

本モデルの推論効率を支えるのが、NemotronアーキテクチャのハイブリッドSSM（State-Space Model）と注意機構の組み合わせだ。

純粋なTransformerベースのモデルでは、トークン数が増えるにつれてKVキャッシュが線形に増大し、長文脈処理がVRAMのボトルネックとなる。これに対しSSMはシーケンス長に依存しない定数サイズの状態を保持するだけでよいため、メモリフットプリントが大幅に削減される。この特性がマルチ画像・長文脈のエージェントワークロードに特に効果的に働く。

ベンチマーク結果——スループット2倍超

WebVoyagerベンチマーク（並列ワーカー100件）での評価では、単一H100 GPU + vLLM（v0.14.1）の構成で以下の結果が得られた。

モデル	最大トークンスループット
Holo2-8B（従来モデル）	5,100 tokens/s
Holotron-12B	8,900 tokens/s

並列リクエスト数が増加するにつれてHolo2-8Bのスループットが頭打ちになるのに対し、Holotron-12Bは安定してスケールし続ける。同じハードウェア上でより大きな実効バッチサイズを処理できることが、この差を生んでいる。

用途と今後の展開

H Companyは、高スループットが求められるデータ生成・アノテーション・オンライン強化学習などのワークロードでの活用を想定している。また同社はNVIDIA Inceptionプログラムのメンバーであり、NVIDIAとの協業が本モデルの実現を後押しした。

モデルの重みとドキュメントはHugging Faceで公開されており、vLLMを通じて推論可能だ。コンピューターユースエージェントの実用化に向けた重要な一歩となる本モデルに、今後も注目したい。

生成AIの関連記事

✨ 生成AI 2026-03-22

H CompanyがHolotron-12Bを公開——高スループット推論を実現したコンピューターユースエージェントモデル

なぜ作ったのか——エージェント特化の思想

ハイブリッドSSMアーキテクチャが鍵

ベンチマーク結果——スループット2倍超

用途と今後の展開

生成AIの関連記事

AIコード生成モデルを「実行結果」で評価する新プラットフォーム「BigCodeArena」が登場

Hugging FaceとVirusTotal、AIセキュリティ強化へ連携——220万超のモデルを継続スキャン

MetaとHugging Faceが「OpenEnv」発表——AIエージェント開発の標準化に向けたオープンエコシステムを構築

「同意なき音声クローンは動かない」——Hugging Faceが提案する倫理的AI設計の新発想

IBMが超小型LLM「Granite 4.0 Nano」を公開——1B・350Mパラメータでエッジ・オンデバイスAIを実現