NVIDIAがフィジカルAI向け推論モデルの最新版を公開
NVIDIAは、物理世界を対象とするAI(フィジカルAI)向けのオープン推論ビジョン言語モデル(VLM)最新版「Cosmos Reason 2」を公開した。前バージョンを精度面で大きく上回り、「Physical AI Bench」および「Physical Reasoning」の両ベンチマークリーダーボードでオープンモデル首位を獲得している。
ビジョン言語モデルの課題——「推論」の壁を越える
ビジョン言語モデルは、画像内の物体認識やパターン検出などのタスクで急速に進化してきた。しかし、複数ステップの計画立案や不確実な状況への適応、新しい場面への対応といった、人間なら自然にこなせるタスクは依然として苦手とされてきた。
Cosmos Reasonシリーズは、こうした「推論のギャップ」を埋めることを目的として設計されている。Cosmos Reason 2は、ロボットやAIエージェントが物体の動きを時空間的に把握し、物理法則や常識・事前知識を活用しながら複雑な問題をステップごとに解決できるよう設計されている。
主な強化ポイント
- 時空間理解の向上:空間・時間の認識精度とタイムスタンプの精度が改善
- 2種類のモデルサイズ:2Bおよび8Bパラメータのモデルを用意し、エッジデバイスからクラウドまで柔軟に展開可能
- 視覚的空間理解の拡張:2D/3D点位置推定、バウンディングボックス座標、軌跡データ、OCR(光学文字認識)をサポート
- 長文コンテキストの強化:入力トークン数が前版の16Kから256Kへと大幅拡大
- Cosmos Cookbookレシピ:多様なユースケースへの適応を支援するサンプルコードを提供
実際の活用シーン
動画解析AIエージェント
膨大な映像データからインサイトを抽出する用途では、Cosmos Reason 2はOCR対応に加え、2D/3D点位置推定やマーク認識などの機能を新たに提供する。Salesforceは、Cobaltロボットが撮影した映像を「Agentforce」と組み合わせて職場の安全管理・コンプライアンス確認に活用する取り組みを進めている。
自動運転向けデータアノテーション
Uberは、自動運転車(AV)の訓練データ向けに、正確で検索可能な映像キャプション生成にCosmos Reason 2の活用を探っている。共同開発されたファインチューニングレシピによると、BLEU スコアが10.6%改善(0.113→0.125)、LingoQAスコアが13.8%向上(63.2%→77.0%)するなど、自動運転領域への高いドメイン適応性が示されている。
ロボットの計画・行動制御
ロボット向けビジョン言語アクション(VLA)モデルの「頭脳」として、次の行動だけでなく軌跡座標の出力にも対応。より緻密で計画的な動作制御が可能になった。
日本市場・製造業への示唆
製造ラインや物流倉庫でのロボット活用が進む日本においても、物理世界を深く理解した推論型AIは大きな可能性を持つ。特に映像による品質検査や異常検知、ロボットアームの精密制御への応用が期待される。Cosmos Reason 2はHugging Faceでオープンに公開されており、国内企業も含めた幅広い開発者がアクセス可能だ。