ホーム 記事一覧 ブック DH週間トピックス 検索 このサイトについて
English
CATMA:テキストアノテーション・分析プラットフォームの活用ガイド

CATMA:テキストアノテーション・分析プラットフォームの活用ガイド

はじめに デジタル・ヒューマニティーズ(DH)の研究において、テキスト分析は最も基本的かつ重要な手法の一つです。文学作品や歴史文書の構造的な分析を行うには、テキストに体系的なアノテーション(注釈付け)を施し、それを定量的に分析できる環境が必要です。 CATMA(Computer Assisted Text Markup and Analysis)は、ハンブルク大学の forTextLab が開発したWebベースのテキストアノテーション・分析プラットフォームです。プログラミングの知識がなくても、直感的な操作でテキストにタグを付け、分析を行うことができます。 CATMAの主な特徴 1. カスタムタグセット CATMAの最大の特長は、研究者が自由にタグセット(Tagset)を定義できることです。既存のマークアップ体系に縛られることなく、自分の研究目的に合わせたアノテーションスキーマを設計できます。 例えば、文学研究であれば「語り手の視点」「比喩表現」「登場人物の感情」といった独自のカテゴリを作成し、テキスト中の該当箇所にタグを付与できます。タグには階層構造を持たせることも可能で、大分類から小分類まで体系的に整理できます。 2. 協調作業への対応 CATMAはWebベースのプラットフォームであるため、複数の研究者が同じプロジェクトで共同作業を行えます。各研究者が独立してアノテーションを行い、それらを比較・統合することで、アノテーションの一致度(Inter-Annotator Agreement)を評価することも可能です。 これは特に、主観的な解釈が入りやすい人文学のテキスト分析において重要な機能です。複数の視点からのアノテーションを比較することで、分析の信頼性を高めることができます。 3. テキスト分析機能 アノテーションを施したテキストに対して、CATMAは様々な分析機能を提供します。 頻度分析: タグの出現頻度を集計し、テキスト全体の傾向を把握 分布分析: タグがテキスト内のどの位置に出現するかを視覚化 KWIC(Key Word in Context): 特定のキーワードやタグの前後の文脈を一覧表示 クエリ機能: 複数のタグやキーワードを組み合わせた高度な検索 4. GitLabベースのプロジェクト管理 CATMAの内部ではGitLabを利用してプロジェクトデータを管理しています。これにより、アノテーションの変更履歴が自動的に記録され、過去のバージョンに戻すことも可能です。研究のプロセスを透明に保つことができ、再現性の高い研究を実現できます。 実際の活用例 文学研究への応用 近代文学のナラティブ分析にCATMAを使用する例を考えてみましょう。小説テキストをアップロードし、「直接話法」「間接話法」「自由間接話法」といったタグセットを作成します。テキスト中の該当箇所にタグを付けていくことで、作品全体における語りの手法の分布を定量的に把握できます。 歴史文書の分析 歴史的な書簡や公文書の分析にも活用できます。「人名」「地名」「日付」「出来事」といったエンティティタグを定義し、文書中の情報を構造化することで、人物間の関係性や出来事の時系列を整理できます。 コーパス言語学 大量のテキストデータに対して一貫したアノテーションを施すことで、言語学的な分析の基盤を構築できます。品詞タグや統語構造のタグを適用し、言語使用のパターンを分析するといった使い方が可能です。 始め方 CATMAはWebブラウザからアクセスして利用できます。 CATMA公式サイトにアクセスし、アカウントを作成 新しいプロジェクトを作成し、分析対象のテキストをアップロード タグセットを定義(既存のテンプレートを利用することも可能) テキスト上でアノテーション作業を開始 分析機能を使ってデータを可視化・集計 注意点とヒント テキストはプレーンテキスト形式(UTF-8)でアップロードするのが最も安定します 大規模なテキストを扱う場合は、適切な単位に分割してからアップロードすることを推奨します タグセットの設計は分析結果に大きく影響するため、事前に十分な検討を行うことが重要です 共同作業を行う場合は、タグ付けのガイドラインを事前に作成しておくと、アノテーションの一貫性が向上します まとめ CATMAは、プログラミングスキルを必要とせずに高度なテキストアノテーションと分析を実現できる強力なツールです。カスタマイズ可能なタグセット、協調作業への対応、GitLabベースのバージョン管理など、研究者のニーズに応える機能が充実しています。テキスト分析をDH研究に取り入れたい方にとって、最適な出発点となるでしょう。

テキストマークアップツール「CATMA」の使い方

テキストマークアップツール「CATMA」の使い方

概要 テキストマークアップツールの一つである「CATMA」の入門的な使い方を紹介します。 https://catma.de/ アノテーションの結果はTEIフォーマットでエクスポートできるため、他のシステムでも活用可能な相互運用性の高いデータを作成できると思われます。また実験的な段階とのことですが、JSON APIも提供されています。これを使うことで、アノテーションはCATMAで行い、その結果をAPIを経由して、他のシステムで利用する、という構成も考えられます。 上記は未検証の内容を含む、一部発展的な取組みになりますが、本記事では、CATMAの基本的な使い方を備忘録として残します。 使い方 以下にアクセスして、「Sign Up」を行います。Googleのアカウントでログインするとスムーズかと思います。 https://app.catma.de/catma/ ログイン後の画面は以下です。 プロジェクトの作成 「Create New Project」から新しいプロジェクトを作成します。 ドキュメントの登録 以下のように、「+」ボタンを押して、「Add Document」を行います。 今回は以下のような単純なtxtファイルを試します。 私の名前は中村覚です。 その後の選択肢は基本的にそのままでOKですが、以下のように、言語は「Japanisch」にしておくとよいかもしれません。 以下のように、exampleというドキュメントと、example Default Annotaitonsというアノテーションを保存するためのコレクションが作成されます。 タグセットの作成 次に、タグセットを作成します。左のメニューから「Tags」を選択して、画面右上の「+」ボタン、「Add Tagset」を選択します。 今回は「はじめてのタグセット」という名前をタグセットを作成しました。さらに、画面右上の「+」ボタンから、「Add Tag」を選択します。 そして、以下のように、タグの追加対象となるタグセットを選択して、今回は、「persName」というタグを追加してみます。「プロパティ」などを追加設定できますが、今回はスキップします。 アノテーション 左のメニューから、「Annotate」に移動して、以下のように、アノテーション対象のドキュメントとして「example」、タグセットとして「はじめてのタグセット」を選択します。 アノテーション付与対象の選択し、画面右から付与対象のタグを選択します。先のタグの追加画面で設定した色の下線が引かれます。 エクスポート 左のメニューから、「Project」に戻り、「example Default Annotations」を選択して、メニューアイコンから「Export Documents & Collections」を選択します。 zipファイルがダウンロードされ、元テキストであるtxtファイルと、アノテーション結果を格納したxmlファイルが展開されます。 xmlファイルは以下のようなTEIのフォーマットで出力されます。<encodingDesc>に使用したタグ、具体的にはpersNameが示されます。 また、<body>以下に、何文字目から何文字目に対して、どのタグが付与されているか、という情報が格納されます。 <TEI xmlns="http://www.tei-c.org/ns/1.0" xml:lang="en"> <teiHeader> <fileDesc> ... </fileDesc> <encodingDesc> <fsdDecl xml:id="T_876E9B9F-B41D-4DD7-B54A-A225A75A8F50" n="はじめてのタグセット b51b9866b96ff38f059b7b5b38b8383dfc53f27c"> <fsDecl xml:id="CATMA_BDA41946-07EF-403E-BDE9-D2E60C48D093" n="2022-11-10T02:05:19.000+0100" type="CATMA_BDA41946-07EF-403E-BDE9-D2E60C48D093"> <fsDescr>persName</fsDescr> ... </fsDecl> </fsdDecl> </encodingDesc> </teiHeader> <text> <body> <ab type="catma"> <ptr target="D_FB58A2B3-EC15-42B8-8DAC-E9A28B3D1FDC#char=0,5" type="inclusion"/> <seg ana="#CATMA_E1AE48BF-903B-451B-8723-FAD8FD182CFE"> <ptr target="D_FB58A2B3-EC15-42B8-8DAC-E9A28B3D1FDC#char=5,8" type="inclusion"/> </seg> <ptr target="D_FB58A2B3-EC15-42B8-8DAC-E9A28B3D1FDC#char=8,13" type="inclusion"/> </ab> </body> <fs xml:id="CATMA_E1AE48BF-903B-451B-8723-FAD8FD182CFE" type="CATMA_BDA41946-07EF-403E-BDE9-D2E60C48D093"> ... </fs> </text> </TEI> 上記の構造化データを使って、さまざまな活用ができそうです。 ...