何が起きたか
発表日: 2026年3月10日(Public Preview) 一次ソース: Google公式ブログ / VentureBeat
Googleが Gemini Embedding 2 をPublic Previewで公開した。初の ネイティブマルチモーダル埋め込みモデル で、テキスト・画像・動画・音声・PDFドキュメントを 同一の埋め込み空間 にマッピングできる。
なぜ重要か
従来の埋め込みモデルはテキスト専用がほとんどだった。画像検索には別のモデル、音声には別のパイプラインが必要だった。Gemini Embedding 2はこれを 1つのモデルで統合 する。
「動画の中からこのシーンに似た画像を探す」「音声の内容に関連するドキュメントを見つける」といった クロスモーダル検索 が単一APIで実現できる。
技術的な特徴
- 対応モダリティ: テキスト、画像、動画(低FPS)、音声、PDF
- 埋め込み次元: 3072次元(Matryoshka表現学習で256〜3072まで可変)
- コスト: テキストは既存選択肢より高め。ただし動画(低FPS)と音声は比較的安価
- Google AI Studioから利用可能
個人開発者への示唆
- 「大量の非テキストデータの検索」 が一番のユースケース。ポッドキャスト音声、チュートリアル動画、スクリーンショットを横断検索するアプリが作れる
- RAGパイプラインに動画・画像を組み込みたい人は検証推奨
- Google AI Studioで今すぐ試せる
- テキスト専用なら既存の安価なモデルで十分。マルチモーダルが必要なときに使うのが賢い選択