RAGシステムの「あるある」な落とし穴を解消する
RAG(Retrieval-Augmented Generation)システムを構築した経験があれば、誰もが一度はこの壁にぶつかる。汎用の埋め込みモデル(Embedding Model)は「インターネット全般」を理解するように訓練されているため、契約書、製造ログ、独自の化学式、社内分類体系といったドメイン固有の文書では微妙なニュアンスを捉えきれない。
NVIDIAは2026年3月、この問題を解決する完全なオープンソースパイプラインをHugging Face Blogにて公開した。シングルGPU・1日以内のトレーニング時間で、汎用埋め込みモデルをドメイン特化モデルへと変換できる。しかも手動ラベリングは一切不要だ。
合成データ生成で学習コストを劇的に削減
埋め込みモデルのファインチューニングには、通常、数千件の「(クエリ、関連文書)ペア」が必要となる。しかしこのデータを手動で作成するのは高コストで時間がかかり、アノテーターの主観バイアスも入り込みやすい。
NVIDIAのアプローチでは、LLM(nvidia/nemotron-3-nano-30b-a3b)を活用して自社ドキュメントから自動的に高品質な合成QAペアを生成する。NeMo Data Designerが四段階のSDG(Synthetic Data Generation)パイプラインを実行し、以下を含む学習データセットを自動構築する:
- ハードネガティブマイニング:対照学習(Contrastive Learning)の精度を高めるために、単純な「無関係文書」ではなく、紛らわしいが不正解の文書を負例として活用
- マルチホップクエリ:複数ドキュメントをまたぐ推論が必要なクエリを生成し、埋め込みの質を向上
実証済みの性能改善
NVIDIA自身の公開ドキュメントで検証した結果、Recall@10とNDCG@10の両指標で10%以上の改善が確認された。
また、AtlassianはこのレシピをJIRAデータセットに適用し、Recall@60を0.751から0.951へ、26%改善することに成功した。いずれもシングルGPUでの実行結果だ。
使用するOSSコンポーネント
| コンポーネント | 役割 |
|---|---|
| NeMo Data Designer | 合成データ生成 |
| NeMo Automodel | 埋め込みモデルトレーニング |
| BEIR | 情報検索評価 |
| NeMo Export-Deploy | ONNX/TensorRT変換 |
| NVIDIA NIM | 本番推論サービング |
前提条件と動作環境
ベースモデルにはLlama-Nemotron-Embed-1B-v2(パラメータ数10億)を使用。品質と推論コストのバランスを重視した選定だ。動作には以下が必要となる:
- ドメイン文書のディレクトリ(
.txt、.md等) - 有効なNVIDIA APIキー(
build.nvidia.comで無料取得可能) - NVIDIA Ampere世代以降のGPU、VRAM 80GB以上(A100/H100で検証済み)
VRAM 80GBというハードルはやや高めだが、クラウド環境(AWS、Azure、GCPのA100/H100インスタンス)を使えば手軽に試せる。日本企業でも、社内ナレッジベースや製造データを活用したRAGシステムの精度向上に直接応用できる技術だ。
NVIDIAの公開ドキュメントから生成した合成トレーニングデータセットもHugging Face上で公開されており、すぐに試せる状態になっている。