Hugging Face、コード不要でデータセットをAI処理できる「AI Sheets」をオープンソースで公開

Hugging Face、ノーコードAIデータ処理ツール「AI Sheets」を公開

Hugging Faceは2025年8月8日、データセットの構築・変換・エンリッチメントをコードなしで実行できるオープンソースツール「AI Sheets」を公開した。スプレッドシートライクなUIで、Hugging Face Hub上の数千のオープンモデルやOpenAIのgpt-ossなどを活用したデータ処理パイプラインを手軽に構築できる。

スプレッドシート感覚でAIを活用

AI Sheetsの操作感はExcelやGoogle スプレッドシートに近い。新しい列を追加するとき、数式の代わりにプロンプトを書くだけでAIが処理を実行する。たとえば{{text}}のようにカラム名をテンプレート変数として埋め込むことで、各行のデータを参照した動的な処理が可能だ。

処理結果のセルを手動で編集・承認することで、その編集内容がプロンプトのFew-shotサンプルとして自動的に追加される仕組みも備える。いわばプロンプトを対話的にチューニングしながらデータセット全体に適用していく、という開発体験を提供する。

主なユースケース

Hugging Faceが想定するユースケースは幅広い。

モデル比較（Vibe Test）: 複数モデルの出力列を並べてLLM-as-a-Judgeで自動評価
プロンプト改善: 顧客リクエスト処理など実務シナリオのプロンプトを実データで反復改善
データ変換・クレンジング: 余分な句読点を除去する、フォーマットを統一するなど
分類・分析: テキストのカテゴリ分類や主要アイデアの抽出
データエンリッチメント: 住所から郵便番号を補完するなど（Webサーチ連携も可）
合成データ生成: プライバシー上の理由で実データが使えない場合の代替データ作成

ローカル実行とHub上での利用の両方に対応

インストール不要でブラウザから即試せるHugging Face Spaces版に加え、GitHubリポジトリからローカル環境にデプロイすることも可能だ。モデルはHugging Face Hub経由のInference Providersか、ローカルモデルを選択できる。

日本語データセット開発への応用も

日本国内でも、LLMの評価ベンチマーク作成や日本語コーパスのクリーニング、社内向け合成データ生成など、機械学習エンジニアやデータサイエンティストが直面する「データ準備」の工程を大幅に省力化できるツールとして注目される。コードを書かずにAIを活用したデータパイプラインを組めるため、MLエンジニア以外のドメイン専門家でも扱いやすい点が特徴だ。

ソースコードはGitHubで公開されており、オープンソースコミュニティからの貢献も受け付けている。

生成AIの関連記事

✨ 生成AI 2026-03-23

Hugging Face、ノーコードAIデータ処理ツール「AI Sheets」を公開

スプレッドシート感覚でAIを活用

主なユースケース

ローカル実行とHub上での利用の両方に対応

日本語データセット開発への応用も

生成AIの関連記事

Hugging FaceがHub全体をGit LFSからXetストレージへ移行——100万ユーザーを無停止で静かに移行した方法

GradioのMCPサーバーが大幅強化——ローカルファイル対応・リアルタイム進捗通知など5つの新機能

Hugging Face CLIが「hf」に刷新——より速く、より使いやすいコマンド体系へ

PythonでMCPサーバーを実装：GradioとAIで作るバーチャル試着ショッピングアシスタント

OpenAIがオープンソースモデル「GPT OSS」を公開——117Bと21BのMoEモデル、Apache 2.0ライセンスで