TL;DR
Voyant Tools はブラウザ上で動作するテキスト分析プラットフォームである。テキストデータをペーストまたはアップロードするだけで、ワードクラウド、KWIC(Key Word In Context)、共起分析、トピックモデリング、TF-IDFなど多彩な分析を即座に実行できる。日本語の形態素解析にも対応しており、DHにおけるテキストマイニングの標準的なツールとして広く利用されている。
Voyant Toolsとは
Voyant Toolsは、Stéfan SinclairとGeoffrey Rockwellによって開発されたオープンソースのテキスト分析環境である。2003年の初版から20年以上の歴史を持ち、DH分野で最も広く使われているテキスト分析ツールの一つである。
主な特徴は以下の通りである。
- 完全ブラウザベース:voyant-tools.org にアクセスするだけで利用開始できる
- 24種類以上のツール:ワードクラウド、頻度分析、KWIC、共起ネットワーク、トレンドグラフなど
- 多言語対応:英語はもちろん、日本語・中国語・韓国語など多言語テキストを分析可能
- コーパス共有:分析結果をURLで共有でき、再現性の高い研究が可能
- API提供:プログラマティックなアクセスも可能
主要な分析機能
Cirrus(ワードクラウド)
テキスト内の高頻度語をワードクラウドとして可視化する。ストップワード(除外語)のカスタマイズにより、分析対象言語に応じた適切なフィルタリングが可能である。
KWIC(コンコーダンス)
特定のキーワードが文脈の中でどのように使われているかを一覧表示する。前後の文脈を確認しながら、用語の使用パターンを分析できる。
Trends(頻度推移)
文書全体を通じた語句の出現頻度の変化を折れ線グラフで表示する。複数の語句を同時に追跡でき、テキスト内のテーマの推移を分析できる。
Links(共起ネットワーク)
単語間の共起関係をネットワークグラフとして可視化する。どの語が頻繁に一緒に使われているかを構造的に把握できる。
Topics(トピックモデリング)
LDAベースのトピックモデリングにより、テキストコーパスに含まれる潜在的なトピックを自動的に抽出する。
使い方
基本的なワークフロー
- Voyant Tools にアクセスする
- テキストを入力エリアにペーストするか、ファイル(TXT、PDF、HTML、XMLなど)をアップロードする
- 「Reveal」ボタンをクリックすると、複数の分析パネルが同時に表示される
- 各パネルの設定を調整し、分析を深める
- エクスポートボタンから画像やデータをダウンロードする
日本語テキストの分析
Voyant Toolsは日本語の形態素解析に対応しており、日本語テキストの分析が可能である。テキストをアップロードする際に言語設定を「Japanese」に指定すると、適切な分節化が行われる。ただし、専門用語や固有名詞の分節精度には限界があるため、結果を確認しながら分析を進めることが推奨される。
DH研究における活用例
文学作品の比較分析
複数の文学作品をコーパスとして読み込み、作品間の語彙の違いや共通する表現パターンを分析できる。例えば、夏目漱石の前期と後期の作品で使用語彙がどのように変化したかを定量的に示すことができる。
歴史文書の分析
新聞記事のデジタルアーカイブを対象に、特定の社会問題に関する言説の変遷を時系列で追跡できる。TrendsツールとKWICを組み合わせることで、量的分析と質的分析を同時に行える。
学術論文のサーベイ
研究分野の論文アブストラクトを大量に集めてトピックモデリングを適用すれば、分野全体の研究動向を把握できる。
他ツールとの比較
| 特徴 | Voyant Tools | AntConc | KH Coder |
|---|---|---|---|
| 動作環境 | ブラウザ | デスクトップ | デスクトップ |
| 日本語対応 | あり | 限定的 | 充実 |
| 可視化 | 豊富 | 基本的 | 豊富 |
| プログラミング | 不要 | 不要 | 不要 |
| 共有機能 | URL共有 | なし | なし |
まとめ
Voyant Toolsは、テキスト分析の専門知識やプログラミングスキルがなくても、豊富な分析機能を手軽に利用できる強力なプラットフォームである。特にDH研究の入門段階で、テキストデータの概要を素早く把握するのに最適である。URLベースのコーパス共有機能により、研究の再現性も確保できる。