AIと喋れる環境を作る(1)音声API調査編
アレクサに「今日の天気は?」と聞くのは便利だけど、なんか無機質すぎる。もっとこう、キャラクター性のあるAIと自然に会話したい。最終的には3D/2Dアバターを動かしながら喋るAIを作りたいと思っている。
そのための第一歩として、音声APIの選択肢を調査してみた。
最終目標
- キャラ付けしたAI(プロンプトでキャラ設定)
- 3D/2Dアバターと連携(Live2D? VRM?)
- 音声で自然に会話
今回はこのうち「音声」部分の土台となるAPIを比較する。
調査対象
大きく分けて3種類ある。
- リアルタイム音声会話API - Gemini Live、OpenAI Realtime等
- アプリの音声モード - ChatGPT、Claude、Copilot等
- STT/TTS単体サービス - Google Cloud TTS、VOICEVOX、Superwhisper等
リアルタイム音声会話API
AIと直接音声で会話できるAPI。STT + LLM + TTSが統合されている。
料金比較
| サービス | 1分あたり | 月1時間使用時 | 無料枠 |
|---|---|---|---|
| Gemini Live API | 約$0.02(約3円) | 約$1.2 | あり |
| OpenAI Realtime API | 約$0.36(約54円) | 約$22 | なし |
OpenAIはGeminiの約16倍高い。趣味で使うにはOpenAIは厳しい。
Gemini Live API
- 音声入力: 約$0.0045/分
- 音声出力: 約$0.018/分
- 合計: 約$0.0225/分
- 無料枠あり(ただし2025年12月に削減された)
- RPD(1日あたりリクエスト数)が20〜250回という制限
コスパ最強だが、無料枠の制限がきつい。
OpenAI Realtime API
- 音声入力: 0.12/分)
- 音声出力: 0.24/分)
- 合計: 約$0.36/分
- WebSocketベース、レイテンシ250-300ms
- GPT-4o-realtime-previewモデル
品質は高いが、高すぎる。
アプリの音声モード
各社のアプリには音声会話機能がある。API呼び出しではなく、アプリ内で完結。
ChatGPT音声モード
| プラン | 月額 | 音声モード |
|---|---|---|
| 無料 | $0 | 標準版(GPT-4o mini)、日額制限あり |
| Plus | $20 | Advanced Voice Mode |
| Pro | $200 | 無制限 |
- PCブラウザ、スマホアプリ、デスクトップアプリで利用可能
- 日本語含む50言語対応
- 応答時間2〜3秒
- 割り込み可能(自然な会話)
定額で気軽に使いたいならChatGPT Plusが現実的。
Claude音声モード
- iOS/Androidアプリで対応
- 無料プランでも利用可能(2025年6月〜)
- 現時点では英語のみ対応(日本語は未対応)
- 5種類の音声から選択可能
- レイテンシ300〜360ms
日本語非対応なのが残念。今後に期待。
Microsoft Copilot音声
- 無料で利用可能
- Windows/Mac/iOS/Androidアプリ対応
- 「Hey Copilot」でハンズフリー起動
- 日本語は段階的対応中(精度はまだ改善の余地あり)
- Microsoft 365との統合が強み
無料で試せるのは良いが、日本語対応がまだ不完全。
TTS(音声合成)サービス
テキストを音声に変換するサービス。LLMの出力を喋らせる用途。
Google Cloud Text-to-Speech
| 音声タイプ | 無料枠 | 有料時 |
|---|---|---|
| Standard | 月400万文字 | 安い |
| WaveNet | 月100万文字 | $16/100万文字 |
| Neural2 | 月100万文字 | 同上 |
- 無料枠が大きい(月400万文字 = 相当な量)
- 日本語完全対応、男女複数ボイス
- WaveNet/Neural2は自然な発話
無料枠の大きさが魅力。ビジネス用途にも耐える品質。
ローカルTTS
クラウドに依存せず、ローカルで音声合成する選択肢。
VOICEVOX
- 国産オープンソース
- 完全無料、商用利用OK(クレジット表記必須)
- GPU不要、導入簡単
- キャラクターボイスが30種類以上
- 日本語完全対応
キャラクター音声を作りたいなら最有力候補。
Style-Bert-VITS2
- 感情表現に優れた音声合成
- VOICEVOXより自然な発話という評価
- GPU不要(学習時のみ推奨)
- ライセンスは要確認(AGPLv3)
感情豊かに喋らせたいならこっち。
Coqui TTS (XTTS-v2)
- 17言語対応
- 6秒の音声クリップで声クローニング可能
- Apache 2.0ライセンス
- GPU推奨
特定の声を再現したい場合に。
Piper TTS
- 超軽量(ラズパイでも動作)
- GPU不要
- 標準ボイスは限定的
組み込み用途向け。
VOICEPEAK
- AHS社の有料TTS(買い切り約2万円〜)
- CLI版あり、自動化可能
- 音質は良い
- 処理が遅い(短いテキストでも約9秒)
- 同時実行は1インスタンスのみ
音質重視で事前生成するなら選択肢になるが、リアルタイム会話には不向き。
STT(音声認識)サービス
音声をテキストに変換するサービス。
クラウドSTT
| サービス | 特徴 | コスト |
|---|---|---|
| OpenAI Whisper API | 高精度、多言語 | $0.006/分 |
| Google Speech-to-Text | 高精度 | $0.006/分〜 |
| Web Speech API | ブラウザ標準 | 無料 |
ローカルSTT + AI補正ツール
音声入力に特化したアプリ。単なる文字起こしではなく、AI補正で自然な文章に変換してくれる。
Superwhisper
- macOS/Windows/iOS対応
- 買い切りプランあり(サブスクだけじゃない)
- オフライン動作可能(プライバシー重視)
- 日本語対応(100言語以上)
- フィラー削除、句読点自動挿入、文法補正
買い切り + オフライン対応が魅力。
Wispr Flow
- macOS/Windows/iOS対応(Android近日対応)
- $15/月(無料枠: 週2000ワード)
- 多言語混在に強い(日英混じりでもOK)
- 日本語対応(100言語以上)
- フィラー削除、スマートフォーマット
日英混在で喋る人には良い選択肢。
構成パターン
調査結果を踏まえて、いくつかの構成パターンを考えてみた。
パターン1: お手軽定額
ChatGPT Plus($20/月)
- 音声会話がアプリ内で完結
- 日本語対応、品質も良い
- アバター連携は難しい(APIアクセスできない)
手軽に「AIと喋る」だけならこれで十分。
パターン2: コスパ重視クラウド
- STT: Web Speech API(無料)or Google STT
- LLM: Claude / GPT-4o / Gemini(好みで)
- TTS: Google Cloud TTS(月400万文字無料)
無料枠の組み合わせでかなりいける。
パターン3: ローカル完結
- STT: Superwhisper(買い切り、オフライン)
- LLM: ローカルLLM or クラウドAPI
- TTS: VOICEVOX(無料、キャラ豊富)
プライバシー重視 + キャラボイスならこの構成。
パターン4: 音声入力→AI補正→返答
- STT + 補正: Superwhisper / Wispr Flow
- LLM: Claude / GPT-4o(さらに文脈理解・返答生成)
- TTS: VOICEVOX / Style-Bert-VITS2
音声入力の時点でAI補正が入るので、LLMへの入力がクリーンになる。
比較まとめ
| 観点 | おすすめ |
|---|---|
| コスト重視 | Gemini Live API or ローカル構成 |
| 手軽さ重視 | ChatGPT Plus($20/月定額) |
| キャラボイス重視 | VOICEVOX(無料、キャラ豊富) |
| 感情表現重視 | Style-Bert-VITS2 |
| TTS無料枠重視 | Google Cloud TTS(月400万文字) |
| オフライン重視 | Superwhisper + VOICEVOX |
| 多言語混在 | Wispr Flow |
結論:次回に向けて
キャラ付けAI + アバターを作る前提で考えると、
音声合成(TTS): VOICEVOX or Style-Bert-VITS2
- 無料でキャラクター性のある声が出せる
- アバターと同期させやすい(テキスト→音声の流れが明確)
音声認識(STT): Superwhisper or Web Speech API
- Superwhisperは買い切り + オフライン + AI補正
- Web Speech APIは無料で手軽
LLM: 好みで選択
- Claude、GPT-4o、Geminiなど
この構成なら、LLMのAPI代だけで音声会話環境が作れる。
次回はアバター連携(Live2D? VRM?)を調査予定。