本記事は生成AIと共同で執筆しています。事実関係は可能な範囲で公式ドキュメント等と照合していますが、誤りが含まれている可能性があります。重要な判断を行う前にご自身でも一次情報をご確認ください。

技術ブログの記事を、自分の声を学習させた合成音声で朗読させる実験を行いました。音声合成は ElevenLabs の Voice Cloning + v3 モデル(eleven_v3、執筆時点では alpha)を利用しています。

本記事では、同一原稿を v2 (eleven_multilingual_v2) と v3 で合成して並べた A/B サンプルと、運用上の観察を記録します。

副次的に、生成した朗読音声をカバー画像 + 波形オーバーレイの MP4 として YouTube にも置いており、専用のプレイリストにまとめています。

背景

背景として、特定の人物の声や話し方を AI で再現し、その人物が書き残したテキストやインタビュー記録を、本人らしい音声で読み上げ・対話する、といった取り組みへの関心があります。歴史人物や故人をデジタルアーカイブする文脈でこうした試みが進められており、技術的・倫理的な検証材料を、自分自身で手を動かして集めたいと考えました。

ただし、他者の声を扱うのは権利・同意・倫理の観点から慎重であるべきなので、まずは自分自身の声で同じパイプラインを通し、合成品質・運用コスト・留意点を整理する、という自己実験を先に行うことにしています。

実験パイプライン

記事 (Markdown)
  ↓ 朗読原稿 (.txt) に書き起こし (現時点では Claude Code で半手動)
  ↓ ElevenLabs API (eleven_v3) で MP3 合成
  ↓ Pillow でカバー画像 (1920x1080) を生成
  ↓ ffmpeg で静止画 + 音声 + showfreqs バー → MP4
  ↓ YouTube Data API で公開 + 専用プレイリスト + タグ別 PL 登録

音声のみのカバーは見た目が単調になりやすいので、ffmpeg の showfreqs フィルタで音声波形バーを下部にオーバーレイしています。

Voice Cloning の方式

ElevenLabs の Voice Cloning には次の二種類があります。

  • IVC (Instant Voice Cloning) — 1 〜 5 分程度の音声サンプルから即時にクローンを作成。推論時条件付け方式
  • PVC (Professional Voice Cloning) — 30 分以上の音声で fine-tune したカスタムモデルを生成。長尺ナレーションでの安定性が高い、とされています

本実験では、過去に公開した短い登壇音声(2023 年のデジタルアーカイブ学会ショートトーク)をサンプルにした IVC を使っています。PVC のほうが品質安定の観点で本来は適していると思われますが、まずは IVC の範囲でどこまで実用に耐えるかを試しています。

朗読原稿の書き方

VOICEVOX 用の台本と違って、ElevenLabs の音声クローンに渡す原稿は、書き手自身が話すような自然な書き言葉に近づけます。一方で、英略語の読みは TTS 任せにすると揺れるので、明示的にカタカナ化しておきます。

原文朗読原稿
Next.jsネクスト・ジェイエス
WAFワッフ
SSRエスエスアール
JA3 fingerprintジェー・エー・スリー・フィンガープリント
$23二十三ドル
ALPNエー・エル・ピー・エヌ

「ワッフ」は人によって「ワフ」「ダブリュー・エー・エフ」と読むケースもありますが、シリーズ内で統一していれば視聴者が混乱しにくいので、自分の発音に合わせて固定しています。

冒頭・末尾はテンプレ化しています。

こんにちは、〇〇です。今回は、〜について、お話しします。

(本文)

以上、ご清聴ありがとうございました。

v2 と v3 の同一原稿サンプル

同じ原稿(284 文字、技術用語と数字混じり)を ElevenLabs の v2 (eleven_multilingual_v2) と v3 (eleven_v3) で合成し、並べてみます。

サンプル原稿:

こんにちは、〇〇です。今回は、イレブンラボズの音声合成モデル、ブイ・ツーと、ブイ・スリーの品質比較について、お話しします。

技術ブログ朗読の用途では、ネクスト・ジェイエス、クラウドフレア、エー・ダブリュー・エス、ワッフ、ジェー・エー・スリー・フィンガープリントといった、英語由来のカタカナ用語が頻出します。月額、二十三ドルから、ゼロドル、というような、数字混じりの読み上げも要求されます。

ブイ・スリーでは、こうした技術用語の抑揚と、句読点での間の取り方が、ブイ・ツーよりも、明確に自然になりました。同一原稿による、A・B比較の素材として、本サンプルを公開します。

v2 (eleven_multilingual_v2)、45.3 秒:

v3 (eleven_v3、alpha)、42.2 秒:

観察された差分

聴き比べると、特に技術用語が連続する箇所で、v3 のほうが自然に聞こえるように感じられました。以下は私の主観での観察です。

1. カタカナ英語の抑揚

v2 は「ネクスト・ジェイエス」のような長い複合語が単調になりがちで、各カタカナ単語のアクセントがフラットに揃ってしまうことがあります。v3 は「ジェー・エー・スリー・フィンガープリント」のような専門用語でも、自然な強弱で読み上げる印象でした。

2. 句読点での間の取り方

v2 は読点(、)での間が一定で、機械的に区切る感じがあります。v3 は文の意味的なまとまりを汲んで、長い間と短い間を使い分ける挙動が見られます。「月額、二十三ドルから、ゼロドル、というような」のような連続読点でも、v3 のほうが自然に感じました。

3. 文末の処理

v2 は「〜です。」「〜になりました。」の終わりがやや尻すぼみになることがあります。v3 は語尾の落ち着きが安定しており、不自然に感じる箇所は減ったように聞こえます。

4. 合成時間

285 文字のサンプルで、生成された音声長は v2 が 45.3 秒、v3 が 42.2 秒でした。v3 のほうが約 7% 短いのですが、v3 のテンポが速いというより、句点の間の取り方が自然(必要以上に伸ばさない)に変わった結果のようです。

運用面のメモ

文字数上限

ElevenLabs の公式ヘルプに記載されている、1 リクエストあたりの文字数上限は次の通りです(2026 年 4 月時点)。

モデル1 リクエストあたり上限
eleven_v3 (alpha)5,000 文字
eleven_multilingual_v210,000 文字
eleven_flash_v2_540,000 文字

技術ブログ朗読の 1 本(2,000 文字程度)であれば v3 の上限内に収まりますが、長尺コンテンツに展開する場合は分割合成 + ffmpeg で連結する必要が出てきます。

v2 が向く場面もある

公式ドキュメントでは、eleven_multilingual_v2 は long-form の安定性で評価されているモデルとされています。今回のような数分の朗読であれば v3 alpha でも実用的に感じましたが、より長尺になる場合や、安定性を最優先したい場合には v2 を選ぶ価値があります。

既存 VOICEVOX シリーズとの併存

YouTube 上で同じ記事の VOICEVOX 版と朗読版が並ぶと視聴者が混乱するため、朗読版のタイトルには 【朗読】 のプレフィックスを付け、専用プレイリストに格納するようにしました。タグベースのプレイリストには両方とも登録しています。

コスト

ElevenLabs の Creator プランで運用しています。v2 / v3 のどちらも同プランで利用可能です。1 本あたりの原稿は 1,500 〜 2,000 文字程度(音声 3 〜 4 分)で、月数本のペースであれば API 文字数枠の範囲に収まります。

まとめ

  • ElevenLabs v3 (alpha) を、日本語の技術記事朗読で試した範囲では、v2 よりも自然に聞こえる箇所が多くなりました
  • 特に「カタカナ英語の連続」「複数の読点」「文末の落ち着き」で差を感じます(主観)
  • ただし v2 は long-form の安定性で公式に推奨されているモデルでもあるため、長尺・安定性重視の用途では v2 を選ぶ場面もありそうです
  • 本実験は、特定の人物の声・話し方を AI で再現する取り組み(故人や歴史人物のデジタルアーカイブ文脈で進められている類のもの)について、まず自分自身の声で安全に検証材料を集めるための前段として位置付けています
  • 副次的に、生成した朗読音声を MP4 化して YouTube の専用プレイリストに置いています

朗読原稿の自動生成は現時点で半手動ですが、Claude Code で記事 Markdown から直接生成するワークフローに移行する予定です。