ElevenLabs v2 と v3 の日本語朗読品質比較 — 自分の声を学習させた合成音声による A/B 検証
本記事は生成AIと共同で執筆しています。事実関係は可能な範囲で公式ドキュメント等と照合していますが、誤りが含まれている可能性があります。重要な判断を行う前にご自身でも一次情報をご確認ください。 技術ブログの記事を、自分の声を学習させた合成音声で朗読させる実験を行いました。音声合成は ElevenLabs の Voice Cloning + v3 モデル(eleven_v3、執筆時点では alpha)を利用しています。 本記事では、同一原稿を v2 (eleven_multilingual_v2) と v3 で合成して並べた A/B サンプルと、運用上の観察を記録します。 副次的に、生成した朗読音声をカバー画像 + 波形オーバーレイの MP4 として YouTube にも置いており、専用のプレイリストにまとめています。 背景 背景として、特定の人物の声や話し方を AI で再現し、その人物が書き残したテキストやインタビュー記録を、本人らしい音声で読み上げ・対話する、といった取り組みへの関心があります。歴史人物や故人をデジタルアーカイブする文脈でこうした試みが進められており、技術的・倫理的な検証材料を、自分自身で手を動かして集めたいと考えました。 ただし、他者の声を扱うのは権利・同意・倫理の観点から慎重であるべきなので、まずは自分自身の声で同じパイプラインを通し、合成品質・運用コスト・留意点を整理する、という自己実験を先に行うことにしています。 実験パイプライン 記事 (Markdown) ↓ 朗読原稿 (.txt) に書き起こし (現時点では Claude Code で半手動) ↓ ElevenLabs API (eleven_v3) で MP3 合成 ↓ Pillow でカバー画像 (1920x1080) を生成 ↓ ffmpeg で静止画 + 音声 + showfreqs バー → MP4 ↓ YouTube Data API で公開 + 専用プレイリスト + タグ別 PL 登録 音声のみのカバーは見た目が単調になりやすいので、ffmpeg の showfreqs フィルタで音声波形バーを下部にオーバーレイしています。 ...