📰 ニュース2026年4月2日5分で読める

Microsoft、完全自社製AIモデル3本を公開 — MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2

MicrosoftがOpenAI依存からの脱却を示す自社AIモデル3本をMicrosoft FoundryとMAI Playgroundで公開。音声認識・音声生成・画像生成をカバーする。

何が起きたか

2026年4月2日、MicrosoftはOpenAIからの技術的独立を示す最初の成果として、完全自社開発のAI基盤モデル3本をMicrosoft FoundryとMAI Playgroundで公開した。

  • MAI-Transcribe-1: 音声認識(Speech-to-Text)
  • MAI-Voice-1: 音声生成(Text-to-Speech)
  • MAI-Image-2: 画像生成

各モデルの詳細

MAI-Transcribe-1

Microsoft AI CEO Mustafa Suleiman曰く「世界最高クラスの音声認識精度」を実現したモデル。Google、OpenAIのWhisperと直接競合する位置づけ。Microsoft Foundryで利用可能。

MAI-Voice-1

リアルな音声を生成するエンジン。ElevenLabsなどが主導してきた音声合成市場にMicrosoftが本格参入する形。

MAI-Image-2

画像生成の第2世代。DALL-E 3やImagen 3と競合する位置づけで、MAI Playgroundで試用可能。

背景: 「AI自給自足」戦略

この3本のモデルは、Suleiman が6ヶ月前に組成した「超知能チーム(Superintelligence Team)」の初成果物だ。MicrosoftとOpenAIの契約は現在再交渉中とされており、Microsoftが自社モデルを持つことでOpenAIへの交渉レバレッジが変わる。

「2027年までに各モダリティで世界最先端を目指す」とSuleimanは語っている。

個人開発者への示唆

現時点での個人開発者への直接的な影響は限定的だ。3本ともMicrosoft Foundryを経由するためエンタープライズ向け料金体系が前提になっている。

ただし、この動きが示す中長期的なインパクトは大きい:

  1. 競争激化による価格低下: OpenAI(Whisper、TTS)、Google(Cloud Speech)との競争が激しくなれば、音声・画像APIのコストは下がる可能性が高い
  2. 音声アプリのコスト: MAI-Transcribe-1のような精度のモデルが個人開発者向けにリーズナブルに提供されれば、音声入力・議事録・ポッドキャスト系アプリの開発コストが大きく変わる
  3. Azureエコシステムとの統合: AzureをすでにIインフラとして使っている個人開発者は、統合コストなしで試せる可能性がある

一次ソース: microsoft.ai/news