Microsoft、完全自社製AIモデル3本を公開 — MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2

何が起きたか

2026年4月2日、MicrosoftはOpenAIからの技術的独立を示す最初の成果として、完全自社開発のAI基盤モデル3本をMicrosoft FoundryとMAI Playgroundで公開した。

Microsoft AI CEO Mustafa Suleiman曰く「世界最高クラスの音声認識精度」を実現したモデル。Google、OpenAIのWhisperと直接競合する位置づけ。Microsoft Foundryで利用可能。

リアルな音声を生成するエンジン。ElevenLabsなどが主導してきた音声合成市場にMicrosoftが本格参入する形。

画像生成の第2世代。DALL-E 3やImagen 3と競合する位置づけで、MAI Playgroundで試用可能。

この3本のモデルは、Suleiman が6ヶ月前に組成した「超知能チーム（Superintelligence Team）」の初成果物だ。MicrosoftとOpenAIの契約は現在再交渉中とされており、Microsoftが自社モデルを持つことでOpenAIへの交渉レバレッジが変わる。

「2027年までに各モダリティで世界最先端を目指す」とSuleimanは語っている。

現時点での個人開発者への直接的な影響は限定的だ。3本ともMicrosoft Foundryを経由するためエンタープライズ向け料金体系が前提になっている。

ただし、この動きが示す中長期的なインパクトは大きい:

競争激化による価格低下: OpenAI（Whisper、TTS）、Google（Cloud Speech）との競争が激しくなれば、音声・画像APIのコストは下がる可能性が高い
音声アプリのコスト: MAI-Transcribe-1のような精度のモデルが個人開発者向けにリーズナブルに提供されれば、音声入力・議事録・ポッドキャスト系アプリの開発コストが大きく変わる
Azureエコシステムとの統合: AzureをすでにIインフラとして使っている個人開発者は、統合コストなしで試せる可能性がある

一次ソース: microsoft.ai/news