📰 ニュース2026年3月13日4分で読める

Google Gemini Embedding 2 — テキスト・画像・動画・音声を1つの埋め込み空間に統合するマルチモーダルモデル

Googleがテキスト・画像・動画・音声・PDFを単一の埋め込み空間にマッピングするGemini Embedding 2をPublic Previewで公開。

何が起きたか

発表日: 2026年3月10日(Public Preview) 一次ソース: Google公式ブログ / VentureBeat

Googleが Gemini Embedding 2 をPublic Previewで公開した。初の ネイティブマルチモーダル埋め込みモデル で、テキスト・画像・動画・音声・PDFドキュメントを 同一の埋め込み空間 にマッピングできる。


なぜ重要か

従来の埋め込みモデルはテキスト専用がほとんどだった。画像検索には別のモデル、音声には別のパイプラインが必要だった。Gemini Embedding 2はこれを 1つのモデルで統合 する。

「動画の中からこのシーンに似た画像を探す」「音声の内容に関連するドキュメントを見つける」といった クロスモーダル検索 が単一APIで実現できる。


技術的な特徴

  • 対応モダリティ: テキスト、画像、動画(低FPS)、音声、PDF
  • 埋め込み次元: 3072次元(Matryoshka表現学習で256〜3072まで可変)
  • コスト: テキストは既存選択肢より高め。ただし動画(低FPS)と音声は比較的安価
  • Google AI Studioから利用可能

個人開発者への示唆

  • 「大量の非テキストデータの検索」 が一番のユースケース。ポッドキャスト音声、チュートリアル動画、スクリーンショットを横断検索するアプリが作れる
  • RAGパイプラインに動画・画像を組み込みたい人は検証推奨
  • Google AI Studioで今すぐ試せる
  • テキスト専用なら既存の安価なモデルで十分。マルチモーダルが必要なときに使うのが賢い選択