ホーム 記事一覧 ブック DH週間トピックス 検索 このサイトについて
English
CATMA:テキストアノテーション・分析プラットフォームの活用ガイド

CATMA:テキストアノテーション・分析プラットフォームの活用ガイド

はじめに デジタル・ヒューマニティーズ(DH)の研究において、テキスト分析は最も基本的かつ重要な手法の一つです。文学作品や歴史文書の構造的な分析を行うには、テキストに体系的なアノテーション(注釈付け)を施し、それを定量的に分析できる環境が必要です。 CATMA(Computer Assisted Text Markup and Analysis)は、ハンブルク大学の forTextLab が開発したWebベースのテキストアノテーション・分析プラットフォームです。プログラミングの知識がなくても、直感的な操作でテキストにタグを付け、分析を行うことができます。 CATMAの主な特徴 1. カスタムタグセット CATMAの最大の特長は、研究者が自由にタグセット(Tagset)を定義できることです。既存のマークアップ体系に縛られることなく、自分の研究目的に合わせたアノテーションスキーマを設計できます。 例えば、文学研究であれば「語り手の視点」「比喩表現」「登場人物の感情」といった独自のカテゴリを作成し、テキスト中の該当箇所にタグを付与できます。タグには階層構造を持たせることも可能で、大分類から小分類まで体系的に整理できます。 2. 協調作業への対応 CATMAはWebベースのプラットフォームであるため、複数の研究者が同じプロジェクトで共同作業を行えます。各研究者が独立してアノテーションを行い、それらを比較・統合することで、アノテーションの一致度(Inter-Annotator Agreement)を評価することも可能です。 これは特に、主観的な解釈が入りやすい人文学のテキスト分析において重要な機能です。複数の視点からのアノテーションを比較することで、分析の信頼性を高めることができます。 3. テキスト分析機能 アノテーションを施したテキストに対して、CATMAは様々な分析機能を提供します。 頻度分析: タグの出現頻度を集計し、テキスト全体の傾向を把握 分布分析: タグがテキスト内のどの位置に出現するかを視覚化 KWIC(Key Word in Context): 特定のキーワードやタグの前後の文脈を一覧表示 クエリ機能: 複数のタグやキーワードを組み合わせた高度な検索 4. GitLabベースのプロジェクト管理 CATMAの内部ではGitLabを利用してプロジェクトデータを管理しています。これにより、アノテーションの変更履歴が自動的に記録され、過去のバージョンに戻すことも可能です。研究のプロセスを透明に保つことができ、再現性の高い研究を実現できます。 実際の活用例 文学研究への応用 近代文学のナラティブ分析にCATMAを使用する例を考えてみましょう。小説テキストをアップロードし、「直接話法」「間接話法」「自由間接話法」といったタグセットを作成します。テキスト中の該当箇所にタグを付けていくことで、作品全体における語りの手法の分布を定量的に把握できます。 歴史文書の分析 歴史的な書簡や公文書の分析にも活用できます。「人名」「地名」「日付」「出来事」といったエンティティタグを定義し、文書中の情報を構造化することで、人物間の関係性や出来事の時系列を整理できます。 コーパス言語学 大量のテキストデータに対して一貫したアノテーションを施すことで、言語学的な分析の基盤を構築できます。品詞タグや統語構造のタグを適用し、言語使用のパターンを分析するといった使い方が可能です。 始め方 CATMAはWebブラウザからアクセスして利用できます。 CATMA公式サイトにアクセスし、アカウントを作成 新しいプロジェクトを作成し、分析対象のテキストをアップロード タグセットを定義(既存のテンプレートを利用することも可能) テキスト上でアノテーション作業を開始 分析機能を使ってデータを可視化・集計 注意点とヒント テキストはプレーンテキスト形式(UTF-8)でアップロードするのが最も安定します 大規模なテキストを扱う場合は、適切な単位に分割してからアップロードすることを推奨します タグセットの設計は分析結果に大きく影響するため、事前に十分な検討を行うことが重要です 共同作業を行う場合は、タグ付けのガイドラインを事前に作成しておくと、アノテーションの一貫性が向上します まとめ CATMAは、プログラミングスキルを必要とせずに高度なテキストアノテーションと分析を実現できる強力なツールです。カスタマイズ可能なタグセット、協調作業への対応、GitLabベースのバージョン管理など、研究者のニーズに応える機能が充実しています。テキスト分析をDH研究に取り入れたい方にとって、最適な出発点となるでしょう。

Taguette:無料で使えるオープンソース質的データ分析ツール

Taguette:無料で使えるオープンソース質的データ分析ツール

はじめに 質的データ分析(QDA: Qualitative Data Analysis)は、インタビュー記録、フィールドノート、歴史文書などのテキストデータにタグやコードを付与し、パターンやテーマを見出す研究手法です。従来、NVivo や ATLAS.ti といった商用ソフトウェアが広く利用されてきましたが、高額なライセンス費用が研究者や学生にとって障壁となることがありました。 本記事では、NVivo や ATLAS.ti の代替として注目されている無料のオープンソース質的データ分析ツール Taguette を紹介します。 Taguette とは Taguette は、テキストデータの質的分析を行うためのオープンソースツールです。BSD ライセンスで公開されており、完全無料で利用できます。ニューヨーク大学の研究者によって開発され、学術研究の民主化を目的としています。 Web ブラウザ上で動作するシンプルなインターフェースを特徴とし、プログラミングの知識がなくても直感的に使い始めることができます。 主な機能 テキストのタグ付け・コーディング Taguette のコア機能は、テキストの選択範囲にタグ(コード)を付与することです。文書を読みながら重要な箇所を選択し、あらかじめ定義したタグや新しいタグを割り当てます。タグは階層的に管理でき、カテゴリごとに整理できます。 ハイライト表示 タグ付けされたテキストはハイライト表示され、どの部分にどのタグが付けられているかを視覚的に確認できます。複数のタグが同一テキストに付けられている場合も、一目で把握できます。 エクスポート機能 分析結果をさまざまな形式でエクスポートできます。 HTML — ブラウザで閲覧可能な形式 CSV — 表計算ソフトやデータ分析ツールで利用可能 XLSX — Excel 形式 DOCX — Word 形式 コード付きドキュメント — タグごとにまとめられたテキスト抽出 プロジェクト管理 複数のドキュメントをプロジェクトとしてまとめて管理できます。同じタグセットを複数の文書に適用し、横断的な分析を行うことが可能です。 コラボレーション Web ベースのインターフェースにより、複数の研究者が同じプロジェクトで共同作業できます。サーバーにインストールすることで、チームでの利用も容易です。 対応ファイル形式 Taguette は以下の形式のドキュメントを読み込めます。 PDF DOCX(Word) HTML TXT(プレーンテキスト) EPUB ODT(OpenDocument) Markdown 導入方法 Taguette はいくつかの方法で利用できます。 オンライン版 app.taguette.org にアクセスするだけで、インストール不要で利用を開始できます。 ローカルインストール Python 環境があれば、pip でインストールできます。 ...

Voyant Tools:ブラウザで完結するテキスト分析プラットフォーム

Voyant Tools:ブラウザで完結するテキスト分析プラットフォーム

TL;DR Voyant Tools はブラウザ上で動作するテキスト分析プラットフォームである。テキストデータをペーストまたはアップロードするだけで、ワードクラウド、KWIC(Key Word In Context)、共起分析、トピックモデリング、TF-IDFなど多彩な分析を即座に実行できる。日本語の形態素解析にも対応しており、DHにおけるテキストマイニングの標準的なツールとして広く利用されている。 Voyant Toolsとは Voyant Toolsは、Stéfan SinclairとGeoffrey Rockwellによって開発されたオープンソースのテキスト分析環境である。2003年の初版から20年以上の歴史を持ち、DH分野で最も広く使われているテキスト分析ツールの一つである。 主な特徴は以下の通りである。 完全ブラウザベース:voyant-tools.org にアクセスするだけで利用開始できる 24種類以上のツール:ワードクラウド、頻度分析、KWIC、共起ネットワーク、トレンドグラフなど 多言語対応:英語はもちろん、日本語・中国語・韓国語など多言語テキストを分析可能 コーパス共有:分析結果をURLで共有でき、再現性の高い研究が可能 API提供:プログラマティックなアクセスも可能 主要な分析機能 Cirrus(ワードクラウド) テキスト内の高頻度語をワードクラウドとして可視化する。ストップワード(除外語)のカスタマイズにより、分析対象言語に応じた適切なフィルタリングが可能である。 KWIC(コンコーダンス) 特定のキーワードが文脈の中でどのように使われているかを一覧表示する。前後の文脈を確認しながら、用語の使用パターンを分析できる。 Trends(頻度推移) 文書全体を通じた語句の出現頻度の変化を折れ線グラフで表示する。複数の語句を同時に追跡でき、テキスト内のテーマの推移を分析できる。 Links(共起ネットワーク) 単語間の共起関係をネットワークグラフとして可視化する。どの語が頻繁に一緒に使われているかを構造的に把握できる。 Topics(トピックモデリング) LDAベースのトピックモデリングにより、テキストコーパスに含まれる潜在的なトピックを自動的に抽出する。 使い方 基本的なワークフロー Voyant Tools にアクセスする テキストを入力エリアにペーストするか、ファイル(TXT、PDF、HTML、XMLなど)をアップロードする 「Reveal」ボタンをクリックすると、複数の分析パネルが同時に表示される 各パネルの設定を調整し、分析を深める エクスポートボタンから画像やデータをダウンロードする 日本語テキストの分析 Voyant Toolsは日本語の形態素解析に対応しており、日本語テキストの分析が可能である。テキストをアップロードする際に言語設定を「Japanese」に指定すると、適切な分節化が行われる。ただし、専門用語や固有名詞の分節精度には限界があるため、結果を確認しながら分析を進めることが推奨される。 DH研究における活用例 文学作品の比較分析 複数の文学作品をコーパスとして読み込み、作品間の語彙の違いや共通する表現パターンを分析できる。例えば、夏目漱石の前期と後期の作品で使用語彙がどのように変化したかを定量的に示すことができる。 歴史文書の分析 新聞記事のデジタルアーカイブを対象に、特定の社会問題に関する言説の変遷を時系列で追跡できる。TrendsツールとKWICを組み合わせることで、量的分析と質的分析を同時に行える。 学術論文のサーベイ 研究分野の論文アブストラクトを大量に集めてトピックモデリングを適用すれば、分野全体の研究動向を把握できる。 他ツールとの比較 特徴 Voyant Tools AntConc KH Coder 動作環境 ブラウザ デスクトップ デスクトップ 日本語対応 あり 限定的 充実 可視化 豊富 基本的 豊富 プログラミング 不要 不要 不要 共有機能 URL共有 なし なし まとめ Voyant Toolsは、テキスト分析の専門知識やプログラミングスキルがなくても、豊富な分析機能を手軽に利用できる強力なプラットフォームである。特にDH研究の入門段階で、テキストデータの概要を素早く把握するのに最適である。URLベースのコーパス共有機能により、研究の再現性も確保できる。 ...