NVIDIAが600万件の多言語推論データセットを公開
NVIDIAは2025年8月20日、600万件規模の多言語推論データセット「Nemotron Post-Training Dataset V2」を公開した。フランス語・スペイン語・ドイツ語・イタリア語・日本語の5言語に対応しており、オープンウェイトモデルの発展を支援することを目的としている。
データセットの特徴と構築手法
今回のデータセットは、既存の英語推論データをベースに5言語へ翻訳したものだ。注目すべきは翻訳アプローチで、ユーザーのプロンプトとモデルの回答は対象言語に翻訳しつつ、推論チェーン(Chain-of-Thought)は英語のまま保持するという設計を採用している。英語の事前学習で蓄積された知識を最大限に活かすための工夫だ。
大規模言語モデル(LLM)による機械翻訳は近年めざましい進歩を遂げているが、合成データ生成においては独自の課題があることも明らかになった。NVIDIAの研究チームは以下の問題を指摘している。
- LLMは一般的な機械翻訳テストセット(FLORESなど)と比べ、SFT(教師ありファインチューニング)データセットの翻訳においてハルシネーション(誤情報生成)が起きやすい
- オープンソースLLMの翻訳品質とハルシネーション率は、入力の長さが増すにつれて著しく低下する
これらの問題に対処するため、いくつかの品質管理メカニズムを導入した。テキストを改行単位で分割して1行ずつ翻訳すること、コードブロックや翻訳不要な行はスキップすること、特殊な括弧記号「〘〙」で翻訳結果を囲むフォーマットを強制して抽出精度を高めること、そしてfastTextによる言語識別でオフターゲットデータを除去することなどが実施されている。これらの結果、約55,567件(全多言語サンプルの約1.1%)が除外された。
同時公開:Nemotron Nano 2 9B
データセットと合わせて、新モデル「NVIDIA Nemotron Nano 2 9B」も発表された。エッジデバイスやRTX環境での動作を想定した小型・高効率モデルで、以下の特徴を持つ。
| 項目 | 詳細 |
|---|---|
| パラメータ数 | 90億(9B) |
| アーキテクチャ | ハイブリッド Transformer–Mamba(Mamba-2 + 少数のアテンション層) |
| スループット | 同クラスの主要モデル比で最大6倍の高速トークン生成 |
| コスト削減 | 「思考バジェット」の調整により推論コストを最大60%削減 |
| 対象用途 | カスタマーサービス、サポートチャットボット、分析コパイロット、エッジデプロイ |
| ライセンス | nvidia-open-model-license |
ハイブリッドTransformer–Mambaアーキテクチャは、純粋なTransformerモデルと同等の精度を保ちながら高いスループットを実現できる点が特徴だ。モデルの重みはHugging Faceで公開されており、build.nvidia.comでAPIエンドポイントのデモも試用可能。NVIDIA NIMとしても近く提供される予定だ。
日本語コミュニティへの意義
日本語が対応言語に含まれた点は、国内の研究者や開発者にとって朗報だ。600万件規模の推論データセットが日本語で利用可能になることで、日本語対応の高性能推論モデルのファインチューニングがより容易になると期待される。NVIDIAはモデル重み・学習ツール・学習データをともに公開することで、オープンウェイトモデルエコシステム全体の底上げを図っている。