📰 ニュース2026年3月2日5分で読める

Claude CodeでMP3音声ファイルを読み取る方法【3つのアプローチ】

Claude CodeでMP3などの音声ファイルを文字起こしする方法を解説。Whisper MCP Server、ローカルWhisper CLI、FFmpegを使った3つのアプローチを紹介。

概要

Claude Codeは現時点で音声ファイルを直接解析する機能を持っていない。しかし、外部ツールとの連携により、MP3などの音声コンテンツを文字起こしして処理することが可能だ。

本記事では、Claude CodeでMP3ファイルを扱うための3つの実用的なアプローチを紹介する。

方法1: Whisper MCP Server(推奨)

最も簡単な方法は、MCP(Model Context Protocol)経由でWhisperを使うこと。

セットアップ

.claude/mcp.json に以下を追加:

{
  "mcpServers": {
    "whisper-mcp": {
      "command": "npx",
      "args": ["-y", "whisper-mcp"]
    }
  }
}

使い方

セットアップ後、Claude Codeに「この音声ファイルを文字起こしして」と依頼するだけで動作する。

特徴

  • wav, mp3, m4aなど多様なフォーマットに対応
  • タイムスタンプ付き/なしの出力が可能
  • ローカルで動作(APIキー不要)

方法2: ローカルWhisper CLI

OpenAI Whisperをローカルにインストールして使う方法。

インストール

pip install openai-whisper

使用例

whisper audio.mp3 --model base --language ja

特徴

  • APIキー不要、完全ローカル処理
  • Claude Codeからexecツールで実行可能
  • GPU対応で高速処理(CUDA)

方法3: FFmpeg + 外部サービス

音声の前処理にFFmpegを使い、外部APIで文字起こしする方法。

音声情報の取得

ffprobe -v quiet -print_format json -show_format audio.mp3

フォーマット変換

ffmpeg -i audio.mp3 -ar 16000 -ac 1 output.wav

実用的なワークフロー

1. 議事録作成

会議の録音ファイルをWhisperで文字起こしし、Claude Codeで要約・整形。

2. ポッドキャスト分析

音声コンテンツを文字に変換し、キーポイント抽出やショーノート作成。

3. インタビュー処理

録音インタビューから引用可能なテキストを生成。

まとめ

方法 難易度 API必要 推奨用途
Whisper MCP 簡単 不要 日常的な文字起こし
ローカルWhisper 中程度 不要 大量処理、オフライン
FFmpeg + API 中程度 必要 高精度が必要な場合

MCP経由が最もシームレスに統合できるため、まずはWhisper MCPの導入をおすすめする。

リファレンス