概要
Claude Codeは現時点で音声ファイルを直接解析する機能を持っていない。しかし、外部ツールとの連携により、MP3などの音声コンテンツを文字起こしして処理することが可能だ。
本記事では、Claude CodeでMP3ファイルを扱うための3つの実用的なアプローチを紹介する。
方法1: Whisper MCP Server(推奨)
最も簡単な方法は、MCP(Model Context Protocol)経由でWhisperを使うこと。
セットアップ
.claude/mcp.json に以下を追加:
{
"mcpServers": {
"whisper-mcp": {
"command": "npx",
"args": ["-y", "whisper-mcp"]
}
}
}
使い方
セットアップ後、Claude Codeに「この音声ファイルを文字起こしして」と依頼するだけで動作する。
特徴
- wav, mp3, m4aなど多様なフォーマットに対応
- タイムスタンプ付き/なしの出力が可能
- ローカルで動作(APIキー不要)
方法2: ローカルWhisper CLI
OpenAI Whisperをローカルにインストールして使う方法。
インストール
pip install openai-whisper
使用例
whisper audio.mp3 --model base --language ja
特徴
- APIキー不要、完全ローカル処理
- Claude Codeからexecツールで実行可能
- GPU対応で高速処理(CUDA)
方法3: FFmpeg + 外部サービス
音声の前処理にFFmpegを使い、外部APIで文字起こしする方法。
音声情報の取得
ffprobe -v quiet -print_format json -show_format audio.mp3
フォーマット変換
ffmpeg -i audio.mp3 -ar 16000 -ac 1 output.wav
実用的なワークフロー
1. 議事録作成
会議の録音ファイルをWhisperで文字起こしし、Claude Codeで要約・整形。
2. ポッドキャスト分析
音声コンテンツを文字に変換し、キーポイント抽出やショーノート作成。
3. インタビュー処理
録音インタビューから引用可能なテキストを生成。
まとめ
| 方法 | 難易度 | API必要 | 推奨用途 |
|---|---|---|---|
| Whisper MCP | 簡単 | 不要 | 日常的な文字起こし |
| ローカルWhisper | 中程度 | 不要 | 大量処理、オフライン |
| FFmpeg + API | 中程度 | 必要 | 高精度が必要な場合 |
MCP経由が最もシームレスに統合できるため、まずはWhisper MCPの導入をおすすめする。
リファレンス
- whisper-mcp (GitHub) - ローカル音声文字起こし用MCPサーバー
- mcp-server-whisper (GitHub) - OpenAI Whisper API対応MCPサーバー
- Whisper Audio Transcription - Claude Code Skill - whisper.cpp + CUDA対応スキル