ホーム/ニュース

📰 ニュース2026年3月13日・4分で読める

Google Gemini Embedding 2 — テキスト・画像・動画・音声を1つの埋め込み空間に統合するマルチモーダルモデル

Googleがテキスト・画像・動画・音声・PDFを単一の埋め込み空間にマッピングするGemini Embedding 2をPublic Previewで公開。

何が起きたか

発表日: 2026年3月10日（Public Preview） 一次ソース: Google公式ブログ / VentureBeat

Googleが Gemini Embedding 2 をPublic Previewで公開した。初の ネイティブマルチモーダル埋め込みモデル で、テキスト・画像・動画・音声・PDFドキュメントを 同一の埋め込み空間 にマッピングできる。

なぜ重要か

従来の埋め込みモデルはテキスト専用がほとんどだった。画像検索には別のモデル、音声には別のパイプラインが必要だった。Gemini Embedding 2はこれを 1つのモデルで統合 する。

「動画の中からこのシーンに似た画像を探す」「音声の内容に関連するドキュメントを見つける」といった クロスモーダル検索 が単一APIで実現できる。

技術的な特徴

対応モダリティ: テキスト、画像、動画（低FPS）、音声、PDF
埋め込み次元: 3072次元（Matryoshka表現学習で256〜3072まで可変）
コスト: テキストは既存選択肢より高め。ただし動画（低FPS）と音声は比較的安価
Google AI Studioから利用可能

個人開発者への示唆

「大量の非テキストデータの検索」 が一番のユースケース。ポッドキャスト音声、チュートリアル動画、スクリーンショットを横断検索するアプリが作れる
RAGパイプラインに動画・画像を組み込みたい人は検証推奨
Google AI Studioで今すぐ試せる
テキスト専用なら既存の安価なモデルで十分。マルチモーダルが必要なときに使うのが賢い選択

← トップページに戻る