Apple標準ツールの限界
macOS Sequoiaのボイスメモには文字起こし機能が搭載されていますが、MTG(ミーティング)用途では力不足です。
主な問題点:
- 固有名詞・専門用語の誤認識が多い — プロダクト名やAPI名が正しく認識されない
- 話者分離ができない — 誰が何を言ったのか区別できない
- 日本語の認識精度が低い — 英語より明らかに精度が落ちる
- 「Couldn't Transcribe Audio」エラー — 長時間録音で失敗するケースが報告されている
MTGの議事録を正確に残すには、専用ツールへの切り替えが現実的な解決策です。
MTG文字起こしツール 6選比較
1. MacWhisper — ローカル処理の決定版
| 項目 | 内容 |
|---|---|
| 価格 | Pro $79.99(買い切り) |
| 処理方式 | ローカル(Apple Silicon最適化) |
| 日本語対応 | ○ |
| 話者分離 | ○ |
| リアルタイム文字起こし | × |
| MTG自動録音 | ○(Zoom, Teams, Webex, Discord等) |
OpenAIのWhisperとNvidia Parakeetをローカルで実行するMac専用アプリ。買い切りで完全オフライン処理という点が最大の強み。
録音済みファイルをドラッグ&ドロップするだけで高精度な文字起こしが得られます。Zoom・Teams・Webex・Discord等のMTGを自動検出して録音する機能も搭載。
iPhone/iPad版もリリースされており、対面MTGをスマホで録音→Macで高精度処理という使い方も可能です。
こんな人に: プライバシー重視、サブスク嫌い、録音ファイルの後処理がメイン
2. Notta — 日本語特化で無料枠あり
| 項目 | 内容 |
|---|---|
| 価格 | 無料枠あり / Pro 月額$8.17〜(年払い) |
| 処理方式 | クラウド |
| 日本語対応 | ◎(最適化済み) |
| 話者分離 | ○ |
| リアルタイム文字起こし | ○ |
| MTG連携 | Zoom / Google Meet / Teams |
日本語の精度に定評があるAI文字起こしサービス。104言語対応で、一般的な会話であれば95%以上の認識精度(複数レビュー調べ)。
リアルタイム文字起こしと録音済みファイルの両方に対応。Zoom・Google Meet・Teamsとの連携機能で、オンラインMTGの議事録作成が自動化できます。
2025年2月にプレミアムプランが月額2,200円→1,980円に値下げ。Webブラウザからも使えるため、Mac miniとの相性も良好です。
こんな人に: 日本語MTGが多い、無料で試したい、手軽に始めたい
→ Notta公式
3. Otter.ai — 英語MTGのゴールドスタンダード
| 項目 | 内容 |
|---|---|
| 価格 | 無料枠あり / Pro $16.99/月 |
| 処理方式 | クラウド |
| 日本語対応 | ○(2025年11月〜) |
| 話者分離 | ○ |
| リアルタイム文字起こし | ○ |
| MTG連携 | Zoom / Meet / Teams(ボット参加 or デスクトップ録音) |
英語圏で最も使われているMTG文字起こしサービス。AI要約とアクションアイテム自動抽出が強力で、MTG後に「で、何を決めた?」がすぐ分かります。
2025年11月に日本語対応を正式発表。ボットをMTGに参加させる方式と、デスクトップ音声を直接キャプチャする方式の両方に対応しています。
こんな人に: 英語MTGが多い、AI要約でMTG後のアクション整理をしたい
4. Granola — メモ×トランスクリプトの融合
| 項目 | 内容 |
|---|---|
| 価格 | 無料枠あり / Pro $18/月(unlimited) |
| 処理方式 | ハイブリッド |
| 日本語対応 | △(英語メイン) |
| 話者分離 | ○ |
| リアルタイム文字起こし | ○(バックグラウンド) |
| 特徴 | 手書きメモとAI文字起こしを統合 |
「ノートテイキング × トランスクリプト」のハイブリッド型。MTG中にあなたが取ったメモを、AIがバックグラウンドで録音したトランスクリプトと統合して、構造化された議事録を自動生成します。
見えるボットを使わないプライバシー設計も特徴。Mac ネイティブアプリで、iPhone版もリリース済み。
こんな人に: MTG中にメモを取る習慣がある、議事録の「自分視点」を残したい
5. Fireflies.ai — チーム・セールス向け
| 項目 | 内容 |
|---|---|
| 価格 | 無料枠あり / Pro $18/月 |
| 処理方式 | クラウド |
| 日本語対応 | ○(10言語対応) |
| 話者分離 | ○ |
| リアルタイム文字起こし | ○ |
| MTG連携 | Zoom / Meet / Teams / Webex |
MTGにボットが参加して録音・文字起こし・要約を自動処理。CRM連携と全文検索が強く、過去のMTGから特定の話題を横断検索できます。
セールスやCSのチームで「あの商談で何を話した?」を素早く見つけたい場合に威力を発揮します。
こんな人に: チームで議事録を共有、CRM連携が必要、MTG検索をしたい
6. Buzz — 無料・OSSのWhisperデスクトップアプリ
| 項目 | 内容 |
|---|---|
| 価格 | 無料(OSS) |
| 処理方式 | ローカル |
| 日本語対応 | ○ |
| 話者分離 | △(限定的) |
| リアルタイム文字起こし | ○(BlackHole併用) |
| 対応OS | Mac / Windows / Linux |
Whisperベースのオープンソースデスクトップアプリ。BlackHole(無料の仮想オーディオドライバ)と組み合わせると、システム音声をリアルタイムで文字起こしできます。
セットアップに技術的な知識が必要ですが、完全無料・完全ローカルで高品質な文字起こしが実現できます。
こんな人に: OSSが好き、カスタマイズしたい、予算ゼロで始めたい
総合比較表
| ツール | 価格 | 日本語 | 話者分離 | リアルタイム | MTG連携 | プライバシー |
|---|---|---|---|---|---|---|
| MacWhisper | $79.99(買い切り) | ○ | ○ | × | ○ | ◎ ローカル |
| Notta | 無料〜$8.17/月 | ◎ | ○ | ○ | ○ | △ クラウド |
| Otter.ai | 無料〜$16.99/月 | ○ | ○ | ○ | ○ | △ クラウド |
| Granola | 無料〜$18/月 | △ | ○ | ○ | ○ | ○ ハイブリッド |
| Fireflies.ai | 無料〜$18/月 | ○ | ○ | ○ | ○ | △ クラウド |
| Buzz | 無料 | ○ | △ | ○ | × | ◎ ローカル |
Mac mini特有の注意点
Mac miniはスピーカーとマイクが内蔵されていますが、MTG用途では品質が不十分です。
オンラインMTGの場合:
- システム音声を直接キャプチャできるツール(Notta, Otter, Granola)を使えば外付けマイク不要
- MacWhisperもZoom等の自動録音に対応
対面MTGの場合:
- 外付けマイクまたはiPhoneでの録音を推奨
- 録音後にMacWhisperで後処理するワークフローが確実
システム音声キャプチャが必要な場合:
- BlackHole(無料の仮想オーディオドライバ)でループバック設定を行う
- BuzzやMacWhisperと組み合わせて使用可能
ユースケース別おすすめ
| ユースケース | おすすめツール | 理由 |
|---|---|---|
| 日本語MTGが多い・手軽に始めたい | Notta | 日本語特化・無料枠あり |
| 英語MTGが多い・AI要約重視 | Otter.ai | 英語精度トップクラス・要約機能 |
| 録音済みファイルを高精度で起こしたい | MacWhisper | 買い切り・ローカル処理 |
| メモと議事録を融合させたい | Granola | 手書きメモ×AI文字起こし |
| プライバシー最優先・完全ローカル | MacWhisper / Buzz | データが外に出ない |
| 予算ゼロで始めたい | Buzz / Notta無料枠 | OSS or 無料プラン |
OSSで自作する — 完全ローカルMTG文字起こしパイプライン
SaaSに月額を払い続けるのではなく、OSSを組み合わせて自分だけの文字起こし環境を構築する選択肢もあります。Apple Silicon Mac miniの処理性能を活かせば、クラウド不要・完全ローカルで実用レベルの文字起こしが実現できます。
OSS文字起こしの全体像
自作パイプラインは大きく3つのレイヤーで構成されます:
| レイヤー | 役割 | 主要OSS |
|---|---|---|
| 音声キャプチャ | システム音声・マイク入力の取得 | BlackHole, SoX |
| 音声認識(ASR) | 音声→テキスト変換 | whisper.cpp, faster-whisper, WhisperX |
| 話者分離 | 誰が話したか識別 | pyannote-audio |
| 要約・議事録化 | テキスト→構造化議事録 | Ollama (ローカルLLM) |
選択肢1: whisper.cpp — C++実装の最速ランナー
# インストール(Apple Silicon最適化)
git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp
cmake -B build -DWHISPER_METAL=ON
cmake --build build -j
# モデルダウンロード(medium推奨)
bash ./models/download-ggml-model.sh medium
# 文字起こし実行
./build/bin/whisper-cli -m models/ggml-medium.bin -f recording.wav -l ja
Apple Siliconベンチマーク(10分音声 / Mediumモデル):
| Mac | チップ | 処理時間 | RTF(低い=速い) |
|---|---|---|---|
| Mac mini | M4 16GB | 約1.2分 | 0.12x |
| MacBook Pro | M3 Pro 18GB | 約1.5分 | 0.15x |
| MacBook Air | M2 8GB | 約2.5分 | 0.25x |
| MacBook Air | M1 8GB | 約3分 | 0.3x |
Mac mini M4なら、1時間のMTG音声を約7分で処理できる計算です。Mediumモデルで十分な精度が得られ、16GB RAMがあればLargeモデルも快適に動作します。
強み: 最速。Metal(GPU)アクセラレーション対応。依存関係が少ない。 弱み: 話者分離は非対応。後処理スクリプトを自前で書く必要あり。
→ whisper.cpp GitHub(★36k+)
選択肢2: WhisperX — 話者分離付きの実用パイプライン
whisper.cppが「エンジン単体」なら、WhisperXは話者分離・タイムスタンプ・チャンク処理を含む完成度の高いパイプラインです。
# インストール
pip install whisperx
# 基本実行(話者分離付き)
whisperx recording.wav --model large-v3 --language ja --diarize
WhisperXの出力例:
[00:00 - 00:15] SPEAKER_00: 今日のアジェンダですが、まず先週のリリース振り返りから...
[00:15 - 00:32] SPEAKER_01: リリースは予定通りでしたが、1点フィードバックがありまして...
構成要素:
- faster-whisper: CTranslate2ベースの高速Whisper実装(GPUメモリ8GB未満で動作)
- wav2vec2: 単語レベルの正確なタイムスタンプ
- pyannote-audio: 話者分離(誰が話したか)
強み: 話者分離・タイムスタンプが一発で得られる。長時間音声の処理に強い。 弱み: Python環境のセットアップが必要。pyannoteのHugging Faceトークンが必要。
→ WhisperX GitHub(★13k+)
選択肢3: 完成型OSSアプリ — GUI付きですぐ使える
コマンドラインが苦手でも、GUIアプリとして完成されたOSSプロジェクトがあります:
| アプリ | 特徴 | プラットフォーム | GitHub Stars |
|---|---|---|---|
| Buzz | Whisperデスクトップアプリ。ファイル投入 + リアルタイム対応 | Mac/Win/Linux | 13k+ |
| Char | メモ×文字起こし融合。Obsidianとの相性◎ | Mac(Win予定) | 6.4k+ |
| Meetily | MTG特化。録音→文字起こし→AI要約をローカル完結 | Mac/Win/Linux | 7.8k+ |
| WhisperDesk | シンプルなWhisper GUI。ドラッグ&ドロップ | Mac | 新興 |
Meetily — OtterのOSS代替として注目
Otter.aiやGranola.aiのオープンソース代替を目指すプロジェクト。録音・文字起こし・AI要約をすべてローカルで完結させます。
- Whisper.cppで文字起こし(Python版より高速)
- OllamaでローカルLLMによる要約生成
- SQLiteでデータ管理(データは完全にローカル)
- ボットなし、カレンダー連携不要
→ Meetily
Char — 手書きメモ×AI文字起こしのOSS版
Granolaに似たコンセプトのOSSアプリ。MTG中のメモとトランスクリプトを統合して議事録を生成します。
- マークダウンファイルで保存(Obsidian連携可能)
- ローカルモデル(Ollama/LM Studio)対応
- クラウドAPI(OpenAI/Claude/Gemini)も選択可能
- 45言語以上対応
音声キャプチャ: BlackHole セットアップ
オンラインMTGの音声をローカルツールに流すには、BlackHole(無料の仮想オーディオドライバ)が必要です。
# Homebrewでインストール
brew install blackhole-2ch
セットアップ手順:
- Audio MIDI設定を開く(Spotlight → 「Audio MIDI Setup」)
- 左下の「+」→「マルチ出力デバイスを作成」
- Mac miniのスピーカー + BlackHole 2ch を両方チェック
- システム環境設定 → サウンド → 出力 でマルチ出力デバイスを選択
- 文字起こしツールの入力で BlackHole 2ch を選択
これでZoom/Meet/Teamsの音声が、スピーカーから聞こえつつ同時にBlackHole経由でWhisperに流れます。
自作パイプラインのコスト比較
| 項目 | 自作(OSS) | MacWhisper Pro | Notta Pro |
|---|---|---|---|
| 初期費用 | ¥0 | .99(約¥12,000) | ¥0 |
| 月額費用 | ¥0 | ¥0 | ¥1,980 |
| 1年間の総コスト | ¥0 | 約¥12,000 | 約¥23,760 |
| セットアップ時間 | 1〜3時間 | 5分 | 5分 |
| カスタマイズ性 | ◎ 無限 | × | × |
| 話者分離 | ○(WhisperX) | ○ | ○ |
| プライバシー | ◎ 完全ローカル | ◎ 完全ローカル | △ クラウド |
おすすめ構成パターン
パターンA: 最小構成(30分で始められる)
- BlackHole + Buzz
- GUIで操作、ファイル投入もリアルタイムも対応
パターンB: 話者分離付き(1時間で構築)
- BlackHole + WhisperX
- コマンドライン。MTG後にファイルを処理するワークフロー
パターンC: フルスタック議事録(2〜3時間で構築)
- BlackHole + WhisperX + Ollama
- 文字起こし→話者分離→ローカルLLMで要約・アクションアイテム抽出
- シェルスクリプト1本で自動化可能
パターンD: GUI完結型(15分で始められる)
- Meetily or Char をインストールするだけ
- 内部でWhisper + ローカルLLMが動く
実践ガイド: Mac miniで対面MTGの音声を拾って文字起こしする
ここからは最も身近なユースケース — Mac miniが置いてある部屋で対面MTGをして、その場の音声をMac miniで録音→文字起こしする方法を具体的に解説します。
Step 0: Mac mini内蔵マイクの限界を知る
Mac mini M4には内蔵マイクがありますが、会議録音には向いていません:
- 集音範囲が狭い — デスク上の近距離のみ
- 指向性が単一方向 — 複数人の声を均等に拾えない
- ノイズキャンセリングなし — 空調音やキーボード音が混入
- Mac mini本体の位置に依存 — テーブル中央に置けない
結論: 外付けマイクは必須ではないが、あると文字起こし精度が格段に上がる。
Step 1: マイク選定(3つの選択肢)
| 選択肢 | 機器 | 価格帯 | 集音範囲 | おすすめ度 |
|---|---|---|---|---|
| A. 内蔵マイクのまま | なし | ¥0 | 〜1m | △ 1-2人なら可 |
| B. USB会議マイク | Anker PowerConf S3等 | ¥8,000〜15,000 | 360° / 〜5m | ◎ 3-6人 |
| C. iPhone をマイクに | 手持ちのiPhone | ¥0 | テーブル中央に配置 | ○ 手軽 |
おすすめはB(USB会議マイク)。 テーブル中央に置くだけで360°集音、話者分離の精度も上がります。Anker PowerConf S3(約¥9,000)やJabra Speak2 40(約¥15,000)がコスパ良好。
iPhoneをマイクにする場合: ボイスメモで録音→AirDrop/iCloud経由でMac miniに転送→Whisperで処理。追加費用ゼロで始められます。
Step 2: 録音方法(3パターン)
パターンA: QuickTime Player(最もシンプル)
# QuickTime Playerで新規オーディオ収録を開始
open -a "QuickTime Player"
# メニューバー → ファイル → 新規オーディオ収録
# 入力デバイスでUSBマイクを選択 → 赤ボタンで録音開始
MTG終了後、保存した .m4a ファイルをWhisperに渡します。QuickTimeは44.1kHz/AACで録音するため音質は十分高く、文字起こし精度に悪影響はありません。最もシンプルで失敗しにくい方法です。
パターンB: ffmpegでコマンドライン録音(自動化向き)
# brew install ffmpeg(未インストールの場合)
# 利用可能な入力デバイス一覧
ffmpeg -f avfoundation -list_devices true -i "" 2>&1 | grep -E "\[AVFoundation\]"
# マイクから録音(デバイス番号は上で確認)
# ":0" はデフォルトマイク。USB マイクは ":1" や ":2" など
ffmpeg -f avfoundation -i ":0" -t 3600 -ar 16000 -ac 1 ~/mtg-recording.wav
# Ctrl+C で録音停止
-ar 16000 -ac 1 はWhisperの入力に最適な16kHz/モノラル。ファイルサイズも小さくなります。
精度のポイント: Whisperは内部で16kHzにリサンプリングするため、44.1kHzや48kHzで録音しても精度は変わりません。最初から16kHzで録音すればファイルサイズを約1/3に抑えられます。
パターンC: SoXで手軽に録音
# brew install sox
# 録音開始(Ctrl+C で停止)
rec ~/mtg-recording.wav rate 16000 channels 1
# 録音にサイレンス検出を入れる(無音5秒で自動停止)
rec ~/mtg-recording.wav rate 16000 channels 1 silence 1 0.1 1% 1 5.0 1%
📊 録音方式と精度の関係:
| 録音方式 | 音質 | 精度への影響 | 備考 |
|---|---|---|---|
| QuickTime (.m4a) | ◎ 44.1kHz/AAC | 影響なし | 最も確実 |
| ffmpeg (.wav 16kHz) | ○ 16kHz/PCM | 影響なし(Whisper最適) | ファイル小 |
| SoX (.wav 16kHz) | ○ 16kHz/PCM | 影響なし(Whisper最適) | 自動停止可 |
| ボイスメモ (.m4a) | ○ AAC | 影響なし | iPhone録音向き |
重要: 録音フォーマットより、マイクと話者の距離が精度に最も影響します。 2m以上離れると認識率が明らかに下がるため、USB会議マイクをテーブル中央に置くのが最も効果的な精度改善策です。
Step 3: 文字起こし(4つのパイプライン)
録音ファイルができたら、文字起こしに進みます。手軽さ順に紹介:
🟢 パイプライン1: MacWhisper(最も手軽)
録音ファイルをMacWhisperにドラッグ&ドロップするだけ。
所要時間: 1時間MTG → 約7分(M4)
精度: ◎(Whisper large-v3 + Parakeet選択可。日本語精度も高い)
話者分離: ○
セットアップ: 5分
コスト: $79.99(買い切り)
🟢 パイプライン2: Buzz(無料GUI)
BuzzにファイルをドロップしてTranscribeボタン。
# インストール
brew install --cask buzz
所要時間: 1時間MTG → 約7分(M4)
精度: ○(Whisper large-v3対応。MacWhisperと同エンジンだが、モデル選択肢はやや少ない)
話者分離: △(限定的)
セットアップ: 5分
コスト: ¥0
🟡 パイプライン3: whisper.cpp CLI(高速・カスタマイズ可能)
# セットアップ(初回のみ)
git clone https://github.com/ggml-org/whisper.cpp && cd whisper.cpp
cmake -B build -DWHISPER_METAL=ON && cmake --build build -j
bash ./models/download-ggml-model.sh medium
# 文字起こし実行
./build/bin/whisper-cli -m models/ggml-medium.bin -f ~/mtg-recording.wav -l ja -otxt -osrt
-otxt でテキスト、-osrt でタイムスタンプ付き字幕ファイルを出力。
所要時間: 1時間MTG → 約7分(M4)
精度: ○〜◎(モデルサイズで変動。medium=実用十分、large-v3=最高精度。日本語はlarge推奨)
話者分離: ×(テキストのみ)
セットアップ: 30分
コスト: ¥0
🟡 パイプライン4: WhisperX(話者分離付き)
# セットアップ(初回のみ)
pip install whisperx
# 文字起こし+話者分離
whisperx ~/mtg-recording.wav --model large-v3 --language ja --diarize --output_dir ~/mtg-output/
出力例:
[00:00 - 00:12] SPEAKER_00: それでは本日のMTGを始めます。
[00:12 - 00:25] SPEAKER_01: はい、まず先週の進捗から報告します。
[00:25 - 00:41] SPEAKER_02: 私の方は、昨日デプロイまで完了しました。
所要時間: 1時間MTG → 約10分(M4、話者分離込み)
精度: ◎(faster-whisper + wav2vec2アラインメントで単語レベルの正確なタイムスタンプ。長時間音声の精度も安定)
話者分離: ◎(pyannote)
セットアップ: 1時間
コスト: ¥0
Step 4: ワンコマンド化(録音→文字起こしの自動化)
毎回同じ手順を踏むのは面倒。シェルスクリプト1本にまとめる例:
#!/bin/bash
# mtg-transcribe.sh — Mac miniで対面MTGを録音→文字起こし
OUTDIR="/Users/satokeita/mtg-records"
mkdir -p ""
TIMESTAMP="20260313-1039"
AUDIO="/mtg-.wav"
TEXT="/mtg-.txt"
echo "🎙 録音開始... Ctrl+Cで停止"
ffmpeg -f avfoundation -i ":0" -ar 16000 -ac 1 "" -loglevel quiet
echo "📝 文字起こし中..."
# whisper.cppのパスは環境に合わせて変更
/Users/satokeita/whisper.cpp/build/bin/whisper-cli \
-m /Users/satokeita/whisper.cpp/models/ggml-medium.bin \
-f "" -l ja -otxt
echo "✅ 完了: "
echo "📄 テキスト: .txt"
# 使い方
chmod +x mtg-transcribe.sh
./mtg-transcribe.sh
# MTG終了したら Ctrl+C → 自動で文字起こし開始
Step 5: リアルタイム文字起こし(応用)
録音後の処理ではなく、MTG中にリアルタイムで文字が出る構成も可能です:
# whisper.cppの stream モードを使用
cd whisper.cpp
./build/bin/whisper-stream -m models/ggml-medium.bin -l ja --step 3000 --length 10000
--step 3000 は3秒ごとにサンプリング、--length 10000 は10秒分をまとめて処理。ターミナルにリアルタイムでテキストが流れます。
Mac mini M4なら十分リアルタイム処理可能(RTF 0.12x = 実時間の8倍速で処理)。
対面MTG × Mac mini: 結論
| やりたいこと | おすすめ構成 | 初期投資 | 精度 | 手軽さ |
|---|---|---|---|---|
| とにかく今すぐ試したい | 内蔵マイク + QuickTime + Buzz | ¥0 | ★★☆ | ★★★ |
| 精度を最大化したい | USB会議マイク + MacWhisper (large) | 〜¥22,000 | ★★★ | ★★★ |
| 完全無料で高精度 | USB会議マイク + whisper.cpp (large) | 〜¥9,000 | ★★★ | ★★☆ |
| 話者分離+高精度 | USB会議マイク + WhisperX (large-v3) | 〜¥9,000 | ★★★ | ★★☆ |
| 自動化したい | ffmpeg + whisper.cpp スクリプト | ¥0〜 | ★★☆ | ★☆☆ |
| リアルタイム表示 | whisper.cpp stream モード | ¥0〜 | ★☆☆ | ★☆☆ |
精度に最も効くのは「マイクの品質と配置」と「モデルサイズ(large推奨)」の2つ。 内蔵マイクでも1-2人・近距離なら実用レベルですが、3人以上のMTGではUSB会議マイクの導入で精度が劇的に改善します。
まとめ
Apple標準のボイスメモ文字起こしは「あると便利」程度で、MTGの議事録として実用するには精度が足りません。
SaaSで手軽に始めるなら:
- Nottaの無料枠 — 日本語MTGならこれから。登録するだけですぐ使える
- MacWhisper — 買い切り$79.99でローカル処理。プライバシー重視ならこちら
OSSで自作するなら:
- Buzz + BlackHole — GUI付きで30分で始められるOSS最小構成
- WhisperX — 話者分離付きの本格パイプライン。コスト¥0
- Meetily / Char — OSSのGUIアプリ。インストールするだけで完結
どちらもApple標準との差は歴然です。Mac mini の Apple Silicon を活かして、MTGの生産性を今日から上げてみてください。