AIと喋れる環境を作る（1）音声API調査編

アレクサに「今日の天気は？」と聞くのは便利だけど、なんか無機質すぎる。もっとこう、キャラクター性のあるAIと自然に会話したい。最終的には3D/2Dアバターを動かしながら喋るAIを作りたいと思っている。

そのための第一歩として、音声APIの選択肢を調査してみた。

最終目標

キャラ付けしたAI（プロンプトでキャラ設定）
3D/2Dアバターと連携（Live2D? VRM?）
音声で自然に会話

今回はこのうち「音声」部分の土台となるAPIを比較する。

調査対象

大きく分けて3種類ある。

リアルタイム音声会話API - Gemini Live、OpenAI Realtime等
アプリの音声モード - ChatGPT、Claude、Copilot等
STT/TTS単体サービス - Google Cloud TTS、VOICEVOX、Superwhisper等

リアルタイム音声会話API

AIと直接音声で会話できるAPI。STT + LLM + TTSが統合されている。

料金比較

サービス	1分あたり	月1時間使用時	無料枠
Gemini Live API	約$0.02（約3円）	約$1.2	あり
OpenAI Realtime API	約$0.36（約54円）	約$22	なし

OpenAIはGeminiの約16倍高い。趣味で使うにはOpenAIは厳しい。

Gemini Live API

音声入力: 約$0.0045/分
音声出力: 約$0.018/分
合計: 約$0.0225/分
無料枠あり（ただし2025年12月に削減された）
RPD（1日あたりリクエスト数）が20〜250回という制限

コスパ最強だが、無料枠の制限がきつい。

OpenAI Realtime API

音声入力: $40/100万トークン（約$ 0.12/分）
音声出力: $80/100万トークン（約$ 0.24/分）
合計: 約$0.36/分
WebSocketベース、レイテンシ250-300ms
GPT-4o-realtime-previewモデル

品質は高いが、高すぎる。

アプリの音声モード

各社のアプリには音声会話機能がある。API呼び出しではなく、アプリ内で完結。

ChatGPT音声モード

プラン	月額	音声モード
無料	$0	標準版（GPT-4o mini）、日額制限あり
Plus	$20	Advanced Voice Mode
Pro	$200	無制限

PCブラウザ、スマホアプリ、デスクトップアプリで利用可能
日本語含む50言語対応
応答時間2〜3秒
割り込み可能（自然な会話）

定額で気軽に使いたいならChatGPT Plusが現実的。

Claude音声モード

iOS/Androidアプリで対応
無料プランでも利用可能（2025年6月〜）
現時点では英語のみ対応（日本語は未対応）
5種類の音声から選択可能
レイテンシ300〜360ms

日本語非対応なのが残念。今後に期待。

Microsoft Copilot音声

無料で利用可能
Windows/Mac/iOS/Androidアプリ対応
「Hey Copilot」でハンズフリー起動
日本語は段階的対応中（精度はまだ改善の余地あり）
Microsoft 365との統合が強み

無料で試せるのは良いが、日本語対応がまだ不完全。

TTS（音声合成）サービス

テキストを音声に変換するサービス。LLMの出力を喋らせる用途。

Google Cloud Text-to-Speech

音声タイプ	無料枠	有料時
Standard	月400万文字	安い
WaveNet	月100万文字	$16/100万文字
Neural2	月100万文字	同上

無料枠が大きい（月400万文字 = 相当な量）
日本語完全対応、男女複数ボイス
WaveNet/Neural2は自然な発話

無料枠の大きさが魅力。ビジネス用途にも耐える品質。

ローカルTTS

クラウドに依存せず、ローカルで音声合成する選択肢。

VOICEVOX

国産オープンソース
完全無料、商用利用OK（クレジット表記必須）
GPU不要、導入簡単
キャラクターボイスが30種類以上
日本語完全対応

キャラクター音声を作りたいなら最有力候補。

Style-Bert-VITS2

感情表現に優れた音声合成
VOICEVOXより自然な発話という評価
GPU不要（学習時のみ推奨）
ライセンスは要確認（AGPLv3）

感情豊かに喋らせたいならこっち。

Coqui TTS (XTTS-v2)

17言語対応
6秒の音声クリップで声クローニング可能
Apache 2.0ライセンス
GPU推奨

特定の声を再現したい場合に。

Piper TTS

超軽量（ラズパイでも動作）
GPU不要
標準ボイスは限定的

組み込み用途向け。

VOICEPEAK

AHS社の有料TTS（買い切り約2万円〜）
CLI版あり、自動化可能
音質は良い
処理が遅い（短いテキストでも約9秒）
同時実行は1インスタンスのみ

音質重視で事前生成するなら選択肢になるが、リアルタイム会話には不向き。

STT（音声認識）サービス

音声をテキストに変換するサービス。

クラウドSTT

サービス	特徴	コスト
OpenAI Whisper API	高精度、多言語	$0.006/分
Google Speech-to-Text	高精度	$0.006/分〜
Web Speech API	ブラウザ標準	無料

ローカルSTT + AI補正ツール

音声入力に特化したアプリ。単なる文字起こしではなく、AI補正で自然な文章に変換してくれる。

Superwhisper

macOS/Windows/iOS対応
買い切りプランあり（サブスクだけじゃない）
オフライン動作可能（プライバシー重視）
日本語対応（100言語以上）
フィラー削除、句読点自動挿入、文法補正

買い切り + オフライン対応が魅力。

Wispr Flow

macOS/Windows/iOS対応（Android近日対応）
$15/月（無料枠: 週2000ワード）
多言語混在に強い（日英混じりでもOK）
日本語対応（100言語以上）
フィラー削除、スマートフォーマット

日英混在で喋る人には良い選択肢。

構成パターン

調査結果を踏まえて、いくつかの構成パターンを考えてみた。

パターン1: お手軽定額

ChatGPT Plus（$20/月）

音声会話がアプリ内で完結
日本語対応、品質も良い
アバター連携は難しい（APIアクセスできない）

手軽に「AIと喋る」だけならこれで十分。

パターン2: コスパ重視クラウド

STT: Web Speech API（無料）or Google STT
LLM: Claude / GPT-4o / Gemini（好みで）
TTS: Google Cloud TTS（月400万文字無料）

無料枠の組み合わせでかなりいける。

パターン3: ローカル完結

STT: Superwhisper（買い切り、オフライン）
LLM: ローカルLLM or クラウドAPI
TTS: VOICEVOX（無料、キャラ豊富）

プライバシー重視 + キャラボイスならこの構成。

パターン4: 音声入力→AI補正→返答

STT + 補正: Superwhisper / Wispr Flow
LLM: Claude / GPT-4o（さらに文脈理解・返答生成）
TTS: VOICEVOX / Style-Bert-VITS2

音声入力の時点でAI補正が入るので、LLMへの入力がクリーンになる。

比較まとめ

観点	おすすめ
コスト重視	Gemini Live API or ローカル構成
手軽さ重視	ChatGPT Plus（$20/月定額）
キャラボイス重視	VOICEVOX（無料、キャラ豊富）
感情表現重視	Style-Bert-VITS2
TTS無料枠重視	Google Cloud TTS（月400万文字）
オフライン重視	Superwhisper + VOICEVOX
多言語混在	Wispr Flow

結論：次回に向けて

キャラ付けAI + アバターを作る前提で考えると、

音声合成（TTS）: VOICEVOX or Style-Bert-VITS2

無料でキャラクター性のある声が出せる
アバターと同期させやすい（テキスト→音声の流れが明確）

音声認識（STT）: Superwhisper or Web Speech API

Superwhisperは買い切り + オフライン + AI補正
Web Speech APIは無料で手軽

LLM: 好みで選択

Claude、GPT-4o、Geminiなど

この構成なら、LLMのAPI代だけで音声会話環境が作れる。

次回はアバター連携（Live2D? VRM?）を調査予定。