GoogleがオンデバイスRAG向け埋め込みモデル「EmbeddingGemma」を公開
Googleは2025年9月4日、新しい多言語テキスト埋め込みモデル「EmbeddingGemma」を公開した。わずか308Mパラメータながら100以上の言語に対応し、モバイルデバイスでのRAG(検索拡張生成)パイプラインやAIエージェントへの組み込みを念頭に設計されている。
特徴と性能
EmbeddingGemmaは、テキストの意味・感情・意図を高密度ベクトルに変換する埋め込みモデルの新世代だ。Hugging Face上での埋め込みモデルの月間ダウンロード数は2億回を超えており、セマンティック検索や推薦システム、コード検索など多様な用途で広く活用されている。
本モデルの主な仕様は以下のとおり:
- パラメータ数:308M(量子化時のRAM消費は200MB以下)
- コンテキストウィンドウ:2,048トークン
- 対応言語:100言語以上
- 出力次元:768次元(512/256/128次元へのMatryoshka截断対応)
- ライセンス:オープンソース
Massive Text Embedding Benchmark(MTEB)の多言語版であるMMTEBでは、500M以下のテキスト専用多言語モデルとして最高スコアを記録している。
アーキテクチャ:デコーダをエンコーダに転換
技術面での最大の特徴は、Gemma3のトランスフォーマーバックボーンをベースに双方向アテンション(Bidirectional Attention)を採用した点だ。従来のGemmaは因果的(一方向)アテンションを用いるデコーダ型LLMだが、EmbeddingGemmaは双方向アテンションによりエンコーダ型に転換されている。これにより、系列内の前後トークンを相互参照でき、埋め込みタスクでLLMを上回る性能を発揮する。
トークン埋め込みはMean Poolingにより文章単位のベクトルに集約され、さらに2層の全結合層を通じて768次元の最終埋め込みが生成される。
また、Matryoshka Representation Learning(MRL)で学習されており、768次元の出力を用途に応じて512・256・128次元に切り詰めることができる。ストレージやメモリの制約が厳しいエッジ環境での活用に有利だ。
主要フレームワークとの対応
EmbeddingGemmaは以下の主要フレームワークからすぐに利用可能だ:
- Sentence Transformers(検索・分類・クラスタリング)
- LangChain / LlamaIndex / Haystack(RAGパイプライン構築)
- Transformers.js(ブラウザ・Node.js上でのオンデバイス推論)
- ONNX Runtime(クロスプラットフォーム推論)
- Text Embeddings Inference(高スループットサービング)
ファインチューニングで専門分野での性能をさらに強化
医療分野向けにMIRIAD(Medical Instruction and Retrieval Dataset)でファインチューニングしたsentence-transformers/embeddinggemma-300m-medicalは、医療論文からの関連パッセージ検索タスクにおいて、2倍規模のモデルをも上回る性能を示した。ドメイン特化型のファインチューニングと組み合わせることで、コンパクトなサイズ以上の実用価値を引き出せることが証明された形だ。
日本語対応への期待
100言語対応を謳う本モデルには当然日本語も含まれており、オンプレミス環境やエッジデバイスでの日本語セマンティック検索や多言語ドキュメント検索への応用が期待される。200MB以下で動作するため、クラウドAPIのコストや遅延を避けたいエンタープライズ用途にも有望な選択肢となりそうだ。