Hugging Face、コード不要でデータセットをAI処理できる「AI Sheets」をオープンソースで公開

Hugging Face、ノーコードAIデータ処理ツール「AI Sheets」を公開

Hugging Faceは2025年8月8日、データセットの構築・変換・エンリッチメントをコードなしで実行できるオープンソースツール「AI Sheets」を公開した。スプレッドシートライクなUIで、Hugging Face Hub上の数千のオープンモデルやOpenAIのgpt-ossなどを活用したデータ処理パイプラインを手軽に構築できる。

スプレッドシート感覚でAIを活用

AI Sheetsの操作感はExcelやGoogle スプレッドシートに近い。新しい列を追加するとき、数式の代わりにプロンプトを書くだけでAIが処理を実行する。たとえば{{text}}のようにカラム名をテンプレート変数として埋め込むことで、各行のデータを参照した動的な処理が可能だ。

処理結果のセルを手動で編集・承認することで、その編集内容がプロンプトのFew-shotサンプルとして自動的に追加される仕組みも備える。いわばプロンプトを対話的にチューニングしながらデータセット全体に適用していく、という開発体験を提供する。

主なユースケース

Hugging Faceが想定するユースケースは幅広い。

  • モデル比較(Vibe Test): 複数モデルの出力列を並べてLLM-as-a-Judgeで自動評価
  • プロンプト改善: 顧客リクエスト処理など実務シナリオのプロンプトを実データで反復改善
  • データ変換・クレンジング: 余分な句読点を除去する、フォーマットを統一するなど
  • 分類・分析: テキストのカテゴリ分類や主要アイデアの抽出
  • データエンリッチメント: 住所から郵便番号を補完するなど(Webサーチ連携も可)
  • 合成データ生成: プライバシー上の理由で実データが使えない場合の代替データ作成

ローカル実行とHub上での利用の両方に対応

インストール不要でブラウザから即試せるHugging Face Spaces版に加え、GitHubリポジトリからローカル環境にデプロイすることも可能だ。モデルはHugging Face Hub経由のInference Providersか、ローカルモデルを選択できる。

日本語データセット開発への応用も

日本国内でも、LLMの評価ベンチマーク作成や日本語コーパスのクリーニング、社内向け合成データ生成など、機械学習エンジニアやデータサイエンティストが直面する「データ準備」の工程を大幅に省力化できるツールとして注目される。コードを書かずにAIを活用したデータパイプラインを組めるため、MLエンジニア以外のドメイン専門家でも扱いやすい点が特徴だ。

ソースコードはGitHubで公開されており、オープンソースコミュニティからの貢献も受け付けている。

※ この記事は海外ソースをAIで自動翻訳・要約したものです。翻訳・要約の過程で意味の相違や情報の欠落がある場合があります。正確な情報は必ず元記事をご確認ください。本記事の内容に基づいて行った行為について、運営者は一切の責任を負いません。