NVIDIAが600万件の多言語推論データセットを公開——日本語も対応、オープンエコシステムを支援

NVIDIAが600万件の多言語推論データセットを公開

NVIDIAは2025年8月20日、600万件規模の多言語推論データセット「Nemotron Post-Training Dataset V2」を公開した。フランス語・スペイン語・ドイツ語・イタリア語・日本語の5言語に対応しており、オープンウェイトモデルの発展を支援することを目的としている。

データセットの特徴と構築手法

今回のデータセットは、既存の英語推論データをベースに5言語へ翻訳したものだ。注目すべきは翻訳アプローチで、ユーザーのプロンプトとモデルの回答は対象言語に翻訳しつつ、推論チェーン（Chain-of-Thought）は英語のまま保持するという設計を採用している。英語の事前学習で蓄積された知識を最大限に活かすための工夫だ。

大規模言語モデル（LLM）による機械翻訳は近年めざましい進歩を遂げているが、合成データ生成においては独自の課題があることも明らかになった。NVIDIAの研究チームは以下の問題を指摘している。

LLMは一般的な機械翻訳テストセット（FLORESなど）と比べ、SFT（教師ありファインチューニング）データセットの翻訳においてハルシネーション（誤情報生成）が起きやすい
オープンソースLLMの翻訳品質とハルシネーション率は、入力の長さが増すにつれて著しく低下する

これらの問題に対処するため、いくつかの品質管理メカニズムを導入した。テキストを改行単位で分割して1行ずつ翻訳すること、コードブロックや翻訳不要な行はスキップすること、特殊な括弧記号「〘〙」で翻訳結果を囲むフォーマットを強制して抽出精度を高めること、そしてfastTextによる言語識別でオフターゲットデータを除去することなどが実施されている。これらの結果、約55,567件（全多言語サンプルの約1.1%）が除外された。

同時公開：Nemotron Nano 2 9B

データセットと合わせて、新モデル「NVIDIA Nemotron Nano 2 9B」も発表された。エッジデバイスやRTX環境での動作を想定した小型・高効率モデルで、以下の特徴を持つ。

項目	詳細
パラメータ数	90億（9B）
アーキテクチャ	ハイブリッド Transformer–Mamba（Mamba-2 + 少数のアテンション層）
スループット	同クラスの主要モデル比で最大6倍の高速トークン生成
コスト削減	「思考バジェット」の調整により推論コストを最大60%削減
対象用途	カスタマーサービス、サポートチャットボット、分析コパイロット、エッジデプロイ
ライセンス	nvidia-open-model-license

ハイブリッドTransformer–Mambaアーキテクチャは、純粋なTransformerモデルと同等の精度を保ちながら高いスループットを実現できる点が特徴だ。モデルの重みはHugging Faceで公開されており、build.nvidia.comでAPIエンドポイントのデモも試用可能。NVIDIA NIMとしても近く提供される予定だ。

日本語コミュニティへの意義

日本語が対応言語に含まれた点は、国内の研究者や開発者にとって朗報だ。600万件規模の推論データセットが日本語で利用可能になることで、日本語対応の高性能推論モデルのファインチューニングがより容易になると期待される。NVIDIAはモデル重み・学習ツール・学習データをともに公開することで、オープンウェイトモデルエコシステム全体の底上げを図っている。

生成AIの関連記事

✨ 生成AI 2026-03-23