🧠 AI開発ナレッジ2026年3月15日15分で読める

VOICEVOX完全調声ガイド — GUI調整からAPI自動化まで、プロ品質の音声を作る全テクニック

無料音声合成ソフトVOICEVOXで、イントネーション・間・語尾の上げ下げを極限まで高品質にする実践テクニックを5つのレイヤーに分けて徹底解説。GUI操作からAPI活用、後処理まで網羅。

VOICEVOXは、無料で使える高品質なテキスト音声合成ソフトウェアとして、動画制作者や個人開発者に広く使われている。デフォルト設定でも十分な品質だが、イントネーション・間の取り方・語尾の上げ下げを丁寧に調整することで、プロのナレーションに匹敵する音声を作ることができる。

この記事では、VOICEVOX の発話品質を最大限に引き出すテクニックを 5つのレイヤー に分けて整理した。GUI の基本操作から API による自動化、後処理のポストプロダクションまで、段階的にレベルアップできる構成になっている。


レイヤー1: GUI上の基本パラメータ調整

VOICEVOX の GUI には、音声品質に直結する 5つの基本パラメータ がある。まずはこれらを理解することが出発点だ。

調整可能な5つのパラメータ

パラメータ 操作箇所 効果
アクセント アクセントバー(緑丸をスライド) 単語ごとの高低アクセント位置を変更
イントネーション イントネーション縦バー 一音ごとのピッチを連続値で調整。最も表現力が高い
長さ(モーラ) 長さバー 子音・母音それぞれの長さを個別調整
話速 右パネル speedScale 発話全体の速度(デフォルト1.0)
抑揚 右パネル intonationScale イントネーションの振れ幅を増減(デフォルト1.0)

パラメータ調整のコツ

アクセント位置の修正が最初のステップ。VOICEVOXは日本語のアクセントをかなり正確に推定するが、複合語や固有名詞では不自然になることがある。アクセントバーの緑丸をスライドさせて、正しい高低パターンに調整しよう。

単語の接続変更も重要だ。「ディープラーニング」が「ディープ」と「ラーニング」に分かれてしまった場合、アクセント項目で文字の間をクリックすることで1語にまとめられる。逆に、不要な結合を切り離すこともできる。


レイヤー2: イントネーションの精密制御

音声の「自然さ」を最も大きく左右するのがイントネーションだ。ここに時間をかけることが、品質向上の最短ルートになる。

疑問文の語尾上げ

VOICEVOXには 「疑問文を自動調整」 機能がある(設定からON)。で終わる文の語尾を自動で上げてくれる仕組みだ。

  • 語尾を伸ばし + 音高を上げ + 伸ばした部分を少し短くする、という3段階の処理が入る
  • ただし、キャラクター・スタイルによっては全体の音高まで上がってしまうことがある
  • その場合は自動調整をOFFにして、手動でイントネーションバーを調整する方が良い結果になる

手動イントネーション調整の実践手順

  1. まず自分で声に出して読む — 人間のイントネーションを耳で確認するのが最も確実な参照点
  2. キーボードの 2 を押してイントネーション欄を表示する
  3. 縦線のバーを上下させて、一音ずつ高さを調整する
  4. Ctrl + マウスホイールで さらに細かく 調整できる
  5. Alt キーを押しながら操作すると、同じアクセント区間内をまとめて上下できる

金属っぽいノイズを防ぐ

音と音の間の落差が大きいときに、金属っぽい違和感のある音が出やすい。イントネーションの設定で前後の値が近くなるように調整すると軽減される。

例: 「ナンデモ」の「モ」: 5.57 → 6.01 に微調整
例: 「スギナイカラ」の「イ」: 6.13 → 6.01 に微調整
→ 前後の値の差を0.5以内に収めると自然さが大幅に増す

無声化の制御

「キ」「ツ」「ス」などが無声化されている場合、イントネーションバーが灰色になる。テキストをクリックすることで無声化を解除できる(対象はイ行とウ行のみ)。意図的に無声化を使い分けることで、より自然な発話になる。


レイヤー3: 「間」の制御 — 最も効果的なテクニック

読点(ポーズ)の調整は、最小の労力で最大の効果が得られるテクニックだ。適切な「間」があるだけで、聞き取りやすさが劇的に変わる。

読点の補充と調整

テクニック 方法 推奨値
読点の補充 長い文に適度に読点を追加 「原稿を見ず音声だけで内容がスッと入るか」が基準
読点の長さ調整 長さバーで個別設定 0.10〜0.15 が自然(デフォルト0.30〜0.50は長すぎ)
開始無音 prePhonemeLength デフォルト0.1秒。文脈に応じて調整
終了無音 postPhonemeLength デフォルト0.1秒。文脈に応じて調整
カギ括弧の間 「」前後に自動挿入される読点を削除 間が不要な箇所は手動で削除

読点のデフォルト値は長すぎる

これは多くのユーザーが見落としがちなポイントだ。VOICEVOXのデフォルトの読点長は 0.30〜0.50秒 だが、自然な会話では 0.10〜0.15秒 程度が心地よい。長さバーで個別に短くするだけで、一気にプロっぽい仕上がりになる。

短い語句の発音問題

「また、」「なお、」のような短い語句は、正しく発音されないことがある。

ワークアラウンド:

  • 前に「、っ、」を入れる(促音でリズムを整える)
  • v0.6.0以降では、無音の長さ調整機能で改善できる場合もある
  • 読み方&アクセント辞書に登録しておくのも有効

「音声を繋いで書き出し」の活用

複数のテキスト欄を使って文を分割し、開始無音・終了無音をテキスト欄ごとに設定すると、繋いだときにちょうどいい間で喋ってくれる。長いナレーション原稿を扱うときに特に有効だ。


レイヤー4: APIによるプログラマブル制御

VOICEVOXはローカルでHTTPサーバーとして動作し、REST API で完全に制御できる。GUI で手動調整していた内容を、プログラムで自動化できるのが最大の強みだ。

公式APIドキュメント: voicevox.github.io/voicevox_engine/api/

基本ワークフロー

1. POST /audio_query?text=テキスト&speaker=ID
   → AudioQuery(JSON)を取得

2. AudioQuery の accent_phrases を編集
   → モーラごとの pitch / length を調整

3. pause_mora の vowel_length を調整
   → 読点の長さ(間の制御)

4. POST /synthesis?speaker=ID
   → 編集済み AudioQuery を送信 → WAV 取得

AudioQuery の全体構造

{
  "accent_phrases": [...],
  "speedScale": 1.0,
  "pitchScale": 0.0,
  "intonationScale": 1.0,
  "volumeScale": 1.0,
  "prePhonemeLength": 0.1,
  "postPhonemeLength": 0.1,
  "outputSamplingRate": 24000,
  "outputStereo": false
}
パラメータ 説明
speedScale float 話速。0.5で半速、2.0で倍速
pitchScale float 全体の音高オフセット
intonationScale float 抑揚の強さ。1.5で誇張、0.5で平坦
volumeScale float 音量
prePhonemeLength float 発話前の無音(秒)
postPhonemeLength float 発話後の無音(秒)
outputSamplingRate int サンプリングレート

accent_phrases の構造(モーラレベル制御)

ここが API 活用の核心部分だ。accent_phrases の中には moras 配列があり、一音ずつの子音長・母音長・ピッチを制御できる。

{
  "moras": [
    {
      "text": "コ",
      "consonant": "k",
      "consonant_length": 0.06,
      "vowel": "o",
      "vowel_length": 0.12,
      "pitch": 5.8
    }
  ],
  "accent": 1,
  "pause_mora": {
    "text": "、",
    "vowel": "pau",
    "vowel_length": 0.15
  }
}
フィールド 制御対象 調整のポイント
consonant_length 子音の長さ 破裂音(k, t, p)を短くするとキレが出る
vowel_length 母音の長さ 語尾を伸ばしたいときに増やす
pitch 一音のピッチ イントネーションの精密制御。前後差を0.5以内に
pause_mora.vowel_length 読点の長さ 0.10〜0.15が自然

Python での実装例

import requests
import json

BASE_URL = "http://localhost:50021"
SPEAKER_ID = 3  # ずんだもん(ノーマル)

def generate_high_quality_voice(text: str, output_path: str):
    # 1. AudioQuery を取得
    query = requests.post(
        f"{BASE_URL}/audio_query",
        params={"text": text, "speaker": SPEAKER_ID}
    ).json()
    
    # 2. パラメータを調整
    query["speedScale"] = 1.1       # 少し速めに
    query["intonationScale"] = 1.2  # 抑揚をやや強く
    query["prePhonemeLength"] = 0.05
    query["postPhonemeLength"] = 0.05
    
    # 3. 読点の長さを自然な値に
    for phrase in query["accent_phrases"]:
        if phrase.get("pause_mora"):
            phrase["pause_mora"]["vowel_length"] = 0.12
    
    # 4. ピッチの急激な変化を滑らかに
    for phrase in query["accent_phrases"]:
        moras = phrase["moras"]
        for i in range(1, len(moras)):
            diff = abs(moras[i]["pitch"] - moras[i-1]["pitch"])
            if diff > 1.0:
                avg = (moras[i]["pitch"] + moras[i-1]["pitch"]) / 2
                moras[i]["pitch"] = avg + 0.3 * (1 if moras[i]["pitch"] > moras[i-1]["pitch"] else -1)
    
    # 5. 音声合成
    audio = requests.post(
        f"{BASE_URL}/synthesis",
        params={"speaker": SPEAKER_ID},
        json=query
    ).content
    
    with open(output_path, "wb") as f:
        f.write(audio)
    
    print(f"✅ 生成完了: {output_path}")

generate_high_quality_voice(
    "こんにちは、VOICEVOXの音声品質を極限まで高める方法を紹介します。",
    "output.wav"
)

非公式クライアントライブラリ

Pythonの場合、voicevox-client を使うとさらに簡潔に書ける。

from vvclient import Client
import asyncio

async def main():
    async with Client() as client:
        audio_query = await client.create_audio_query(
            "こんにちは!", speaker=1
        )
        with open("voice.wav", "wb") as f:
            f.write(await audio_query.synthesis(speaker=1))

asyncio.run(main())

レイヤー5: 後処理(ポストプロダクション)

VOICEVOXの出力音声をさらに仕上げることで、配信・動画に使えるレベルの品質になる。

推奨する後処理チェーン

順番 処理 ツール 効果
1 ノーマライズ ffmpeg / Audacity 音量を統一
2 EQ(イコライザー) DAW / Audacity 200Hz以下カット(モゴモゴ感除去)、3-5kHz ブースト(明瞭度向上)
3 コンプレッサー DAW 音量のダイナミクスを均す
4 ノイズゲート DAW 無音部分の微小ノイズを除去
5 軽いリバーブ DAW ナレーション向けの空間感を追加(Dry多め)

ffmpeg でのワンライナー後処理

個人開発者ならDAWを使わずとも、ffmpeg で基本的な後処理ができる。

# ノーマライズ + ハイパスフィルタ + 明瞭度ブースト
ffmpeg -i input.wav \
  -af "highpass=f=200,equalizer=f=4000:t=q:w=1:g=3,loudnorm" \
  output.wav

実践チェックリスト

段階ごとにまとめた。上から順に取り組むことで、効率よく品質を上げられる。

✅ 必須(これだけは確実に)

  • 単語の区切りが意図通りか全文確認
  • 読み方が正しいか全文確認(辞書登録を活用)
  • 疑問文の語尾上げが機能しているか確認

🔧 推奨(ここまでやると大きく差が出る)

  • 自分で声に出して読み、イントネーションの参考にする
  • 適度に読点を補う(一息で読めない長さを区切る)
  • 読点の長さを 0.10〜0.15 に調整(デフォルトは長すぎ)
  • カギ括弧前後の不要なポーズを削除
  • カタカナ語の語尾に伸ばし棒を追加(「インフィニティ」→「インフィニティー」)
  • イントネーションの前後の落差を滑らかに
  • 「~していた」等の語尾パターンを複数試す

🎯 上級(プロレベル)

  • APIでモーラレベルの pitch / length を精密制御
  • 後処理(EQ + ノーマライズ + コンプ)をパイプライン化
  • スタイル(ノーマル/あまあま/ツンツン等)を場面で使い分け
  • プリセット機能で頻出パターンを保存
  • ルビ機能({漢字|かんじ})で読み方を直接指定

ユースケース別の推奨設定

ユースケース 話速 抑揚 読点長 後処理
動画ナレーション 1.0〜1.1 1.1〜1.3 0.12 EQ + ノーマライズ
ポッドキャスト 0.9〜1.0 1.0〜1.2 0.15 コンプ + 軽リバーブ
ゲーム実況風 1.1〜1.3 1.3〜1.5 0.08 ノーマライズ
読み聞かせ 0.8〜0.9 1.2〜1.4 0.20 リバーブ
業務用アナウンス 1.0 0.8〜1.0 0.10 EQ + コンプ

まとめ

VOICEVOXの音声品質は、デフォルト設定でも「そのまま使える」レベルだが、本記事で紹介した5つのレイヤーを意識することで、プロのナレーションに近づけることができる。

効果の大きい順に並べると:

  1. 読点の長さ調整(0.10〜0.15に短縮)— 最小労力で最大効果
  2. イントネーションの滑らか化 — 前後差を小さくするだけで自然に
  3. 読点の補充 — 聞き手の理解度が変わる
  4. API活用 — 大量生成や反復作業の自動化に
  5. 後処理 — 配信品質への最後の仕上げ

VOICEVOXは無料でありながら、調整次第で商用レベルの音声を生成できる。個人開発者にとって、音声UIやコンテンツ制作の強力な武器になるはずだ。


参考リンク:


💡 エキスパートコメント

AI Solo Craft 編集部のエキスパートが、今日のニュースを専門視点で読み解きます。

🔧 エンジニア

VOICEVOXのAPIがローカルHTTPサーバーとして動くのは個人開発者にとって最高の設計だと思います。audio_query → JSON編集 → synthesis の3ステップで完全にプログラマブル制御できるので、バッチ処理やCI/CDに組み込むのも容易です。記事中のピッチ平滑化コードは実用的ですが、本番運用するなら accent_phrases のバリデーションも入れておくと安心ですね。サンプリングレートを上げても品質は変わらない点は、公式ドキュメントにも明記されている重要な注意点です。

🎨 デザイナー

「間」の制御が最も効果的、という指摘に強く共感します。UIデザインでもホワイトスペースが読みやすさを決めるように、音声でも「無音の設計」が聞き心地を左右するんですよね。読点のデフォルト値が長すぎるというのは、多くのユーザーが気づかないまま使っている落とし穴。プリセット機能でユースケース別の設定を保存しておけば、制作ワークフロー全体がスムーズになります。

📊 マネージャー

VOICEVOXが完全無料でこの品質を出せるのは、個人開発者の音声コンテンツ参入障壁を大幅に下げています。特にAPI経由での自動化は、ポッドキャスト・動画の量産体制を一人で組めることを意味します。商用利用可能なキャラクターも多いので、プロダクトのオンボーディング音声やチュートリアル動画など、ビジネス活用の幅は想像以上に広いですね。


📋 デスクコメント

📋 デスク

この記事のポイントは「5つのレイヤー」という構造化にあります。初心者は読点調整から、上級者はAPI自動化からと、自分のレベルに合わせて取り組める設計になっている。個人開発者への具体的なアクションとしては、まず(1)読点の長さを0.12に設定してみる、(2)ffmpegのワンライナーで後処理する、の2つだけで劇的に変わるはず。音声品質は「やるかやらないか」の差が大きい領域です。

✏️ 編集部メンバーを見る →