技術 約5分で読めます

AIと喋れる環境を作る(1)音声API調査編

アレクサに「今日の天気は?」と聞くのは便利だけど、なんか無機質すぎる。もっとこう、キャラクター性のあるAIと自然に会話したい。最終的には3D/2Dアバターを動かしながら喋るAIを作りたいと思っている。

そのための第一歩として、音声APIの選択肢を調査してみた。

最終目標

  • キャラ付けしたAI(プロンプトでキャラ設定)
  • 3D/2Dアバターと連携(Live2D? VRM?)
  • 音声で自然に会話

今回はこのうち「音声」部分の土台となるAPIを比較する。

調査対象

大きく分けて3種類ある。

  1. リアルタイム音声会話API - Gemini Live、OpenAI Realtime等
  2. アプリの音声モード - ChatGPT、Claude、Copilot等
  3. STT/TTS単体サービス - Google Cloud TTS、VOICEVOX、Superwhisper等

リアルタイム音声会話API

AIと直接音声で会話できるAPI。STT + LLM + TTSが統合されている。

料金比較

サービス1分あたり月1時間使用時無料枠
Gemini Live API約$0.02(約3円)約$1.2あり
OpenAI Realtime API約$0.36(約54円)約$22なし

OpenAIはGeminiの約16倍高い。趣味で使うにはOpenAIは厳しい。

Gemini Live API

  • 音声入力: 約$0.0045/分
  • 音声出力: 約$0.018/分
  • 合計: 約$0.0225/分
  • 無料枠あり(ただし2025年12月に削減された)
  • RPD(1日あたりリクエスト数)が20〜250回という制限

コスパ最強だが、無料枠の制限がきつい。

OpenAI Realtime API

  • 音声入力: 40/100万トークン(約40/100万トークン(約0.12/分)
  • 音声出力: 80/100万トークン(約80/100万トークン(約0.24/分)
  • 合計: 約$0.36/分
  • WebSocketベース、レイテンシ250-300ms
  • GPT-4o-realtime-previewモデル

品質は高いが、高すぎる。

アプリの音声モード

各社のアプリには音声会話機能がある。API呼び出しではなく、アプリ内で完結。

ChatGPT音声モード

プラン月額音声モード
無料$0標準版(GPT-4o mini)、日額制限あり
Plus$20Advanced Voice Mode
Pro$200無制限
  • PCブラウザ、スマホアプリ、デスクトップアプリで利用可能
  • 日本語含む50言語対応
  • 応答時間2〜3秒
  • 割り込み可能(自然な会話)

定額で気軽に使いたいならChatGPT Plusが現実的

Claude音声モード

  • iOS/Androidアプリで対応
  • 無料プランでも利用可能(2025年6月〜)
  • 現時点では英語のみ対応(日本語は未対応)
  • 5種類の音声から選択可能
  • レイテンシ300〜360ms

日本語非対応なのが残念。今後に期待。

Microsoft Copilot音声

  • 無料で利用可能
  • Windows/Mac/iOS/Androidアプリ対応
  • 「Hey Copilot」でハンズフリー起動
  • 日本語は段階的対応中(精度はまだ改善の余地あり)
  • Microsoft 365との統合が強み

無料で試せるのは良いが、日本語対応がまだ不完全。

TTS(音声合成)サービス

テキストを音声に変換するサービス。LLMの出力を喋らせる用途。

Google Cloud Text-to-Speech

音声タイプ無料枠有料時
Standard月400万文字安い
WaveNet月100万文字$16/100万文字
Neural2月100万文字同上
  • 無料枠が大きい(月400万文字 = 相当な量)
  • 日本語完全対応、男女複数ボイス
  • WaveNet/Neural2は自然な発話

無料枠の大きさが魅力。ビジネス用途にも耐える品質。

ローカルTTS

クラウドに依存せず、ローカルで音声合成する選択肢。

VOICEVOX

  • 国産オープンソース
  • 完全無料、商用利用OK(クレジット表記必須)
  • GPU不要、導入簡単
  • キャラクターボイスが30種類以上
  • 日本語完全対応

キャラクター音声を作りたいなら最有力候補

Style-Bert-VITS2

  • 感情表現に優れた音声合成
  • VOICEVOXより自然な発話という評価
  • GPU不要(学習時のみ推奨)
  • ライセンスは要確認(AGPLv3)

感情豊かに喋らせたいならこっち。

Coqui TTS (XTTS-v2)

  • 17言語対応
  • 6秒の音声クリップで声クローニング可能
  • Apache 2.0ライセンス
  • GPU推奨

特定の声を再現したい場合に。

Piper TTS

  • 超軽量(ラズパイでも動作)
  • GPU不要
  • 標準ボイスは限定的

組み込み用途向け。

VOICEPEAK

  • AHS社の有料TTS(買い切り約2万円〜)
  • CLI版あり、自動化可能
  • 音質は良い
  • 処理が遅い(短いテキストでも約9秒)
  • 同時実行は1インスタンスのみ

音質重視で事前生成するなら選択肢になるが、リアルタイム会話には不向き

STT(音声認識)サービス

音声をテキストに変換するサービス。

クラウドSTT

サービス特徴コスト
OpenAI Whisper API高精度、多言語$0.006/分
Google Speech-to-Text高精度$0.006/分〜
Web Speech APIブラウザ標準無料

ローカルSTT + AI補正ツール

音声入力に特化したアプリ。単なる文字起こしではなく、AI補正で自然な文章に変換してくれる。

Superwhisper

  • macOS/Windows/iOS対応
  • 買い切りプランあり(サブスクだけじゃない)
  • オフライン動作可能(プライバシー重視)
  • 日本語対応(100言語以上)
  • フィラー削除、句読点自動挿入、文法補正

買い切り + オフライン対応が魅力

Wispr Flow

  • macOS/Windows/iOS対応(Android近日対応)
  • $15/月(無料枠: 週2000ワード)
  • 多言語混在に強い(日英混じりでもOK)
  • 日本語対応(100言語以上)
  • フィラー削除、スマートフォーマット

日英混在で喋る人には良い選択肢。

構成パターン

調査結果を踏まえて、いくつかの構成パターンを考えてみた。

パターン1: お手軽定額

ChatGPT Plus($20/月)

  • 音声会話がアプリ内で完結
  • 日本語対応、品質も良い
  • アバター連携は難しい(APIアクセスできない)

手軽に「AIと喋る」だけならこれで十分。

パターン2: コスパ重視クラウド

  • STT: Web Speech API(無料)or Google STT
  • LLM: Claude / GPT-4o / Gemini(好みで)
  • TTS: Google Cloud TTS(月400万文字無料)

無料枠の組み合わせでかなりいける。

パターン3: ローカル完結

  • STT: Superwhisper(買い切り、オフライン)
  • LLM: ローカルLLM or クラウドAPI
  • TTS: VOICEVOX(無料、キャラ豊富)

プライバシー重視 + キャラボイスならこの構成。

パターン4: 音声入力→AI補正→返答

  • STT + 補正: Superwhisper / Wispr Flow
  • LLM: Claude / GPT-4o(さらに文脈理解・返答生成)
  • TTS: VOICEVOX / Style-Bert-VITS2

音声入力の時点でAI補正が入るので、LLMへの入力がクリーンになる。

比較まとめ

観点おすすめ
コスト重視Gemini Live API or ローカル構成
手軽さ重視ChatGPT Plus($20/月定額)
キャラボイス重視VOICEVOX(無料、キャラ豊富)
感情表現重視Style-Bert-VITS2
TTS無料枠重視Google Cloud TTS(月400万文字)
オフライン重視Superwhisper + VOICEVOX
多言語混在Wispr Flow

結論:次回に向けて

キャラ付けAI + アバターを作る前提で考えると、

音声合成(TTS): VOICEVOX or Style-Bert-VITS2

  • 無料でキャラクター性のある声が出せる
  • アバターと同期させやすい(テキスト→音声の流れが明確)

音声認識(STT): Superwhisper or Web Speech API

  • Superwhisperは買い切り + オフライン + AI補正
  • Web Speech APIは無料で手軽

LLM: 好みで選択

  • Claude、GPT-4o、Geminiなど

この構成なら、LLMのAPI代だけで音声会話環境が作れる。

次回はアバター連携(Live2D? VRM?)を調査予定。