TL;DR
Transkribus は、AIベースの手書き文字認識(HTR: Handwritten Text Recognition)プラットフォームである。100以上の言語に対応し、印刷文字だけでなく手書き文字の認識が可能である。カスタムモデルの学習機能により、特定の筆跡や書体に最適化した認識精度の向上が図れる。歴史文書のテキスト化において、DH研究者にとって不可欠なツールとなっている。
Transkribusとは
Transkribusは、オーストリアのインスブルック大学で開始されたプロジェクトに端を発し、現在はREAD-COOP SCE(欧州協同組合)によって運営されている。EU の Horizon 2020 プログラムなどの支援を受けて開発が進められてきた。
主な特徴は以下の通りである。
- HTR(手書き文字認識):ディープラーニングベースの手書き文字認識エンジン
- 100以上の言語:ラテン文字、キリル文字、アラビア文字、ヘブライ文字など多様な文字体系に対応
- カスタムモデル学習:自分のデータで認識モデルを学習させ、特定の文書に特化した高精度な認識が可能
- レイアウト解析:ページ内のテキスト領域、行、段落を自動的に検出
- 協調作業:チームでの共同作業に対応し、大規模なテキスト化プロジェクトを効率的に進められる
主要機能
テキスト認識(HTR/OCR)
Transkribusの中核機能である。事前学習済みの汎用モデルを使えば、すぐにテキスト認識を開始できる。公開されているモデルには、中世ラテン語写本、近世ドイツ語の亀甲文字(Kurrent)、英語の筆記体など、様々な時代・言語に対応したものがある。
カスタムモデルの学習
最も強力な機能の一つである。約50ページ分のGround Truth(正解テキスト付き画像)を用意すれば、特定の筆跡や書体に特化したモデルを学習できる。学習済みモデルは他のユーザーと共有することも可能である。
レイアウト解析
文書画像のレイアウトを自動的に解析し、テキスト領域(TextRegion)、行(TextLine)、ベースラインを検出する。複雑なレイアウト(多段組み、表、マージン書き込みなど)にも対応している。
Transkribus Lite
ブラウザベースのインターフェースで、インストール不要で利用できる。基本的なHTR機能とレイアウト解析が利用可能であり、手軽に試したい場合に適している。
使い方
基本的なワークフロー
- アカウント作成:Transkribusでアカウントを作成する
- 文書のアップロード:画像ファイル(JPEG、PNG、TIFF)やPDFをアップロードする
- レイアウト解析:自動レイアウト解析を実行し、テキスト領域と行を検出する
- モデル選択:適切なHTRモデルを選択する(公開モデル一覧から検索可能)
- テキスト認識実行:選択したモデルでHTRを実行する
- 結果の確認・修正:認識結果を画像と照合しながら確認・修正する
- エクスポート:TEI-XML、PAGE XML、ALTO XML、プレーンテキストなどの形式でエクスポートする
料金体系
Transkribusは従量課金制を採用している。無料枠(月500クレジット)があり、小規模な利用であれば無料で始められる。大規模プロジェクトにはサブスクリプションプランが用意されている。
DH研究における活用例
歴史文書のテキスト化
アーカイブに眠る手書き文書をテキスト化し、全文検索可能なデジタルアーカイブを構築できる。例えば、江戸時代の古文書や明治期の手書き公文書のテキスト化に活用できる。
大規模コーパスの構築
カスタムモデルの学習と自動認識を組み合わせることで、数千ページ規模の文書を効率的にテキスト化し、テキストマイニングや言語学的分析のためのコーパスを構築できる。
比較文書学
同一テキストの異なる写本をそれぞれテキスト化し、テキストの異同を分析する比較文書学(Stemmatology)に活用できる。TEI-XML形式でのエクスポートにより、Critical Editionの作成にもつなげられる。
市民参加型プロジェクト
Transkribusの協調作業機能を活用し、ボランティアによるクラウドソーシング型のテキスト化プロジェクトを運営できる。品質管理機能により、市民参加型でも高品質な成果を得られる。
他ツールとの比較
| 特徴 | Transkribus | Google Cloud Vision | Tesseract OCR |
|---|---|---|---|
| HTR(手書き) | 高精度 | 基本的 | 非対応 |
| カスタムモデル | 可能 | AutoML利用 | 学習可能 |
| 歴史文書対応 | 特化 | 汎用 | 汎用 |
| レイアウト解析 | 高度 | 基本的 | 基本的 |
| 料金 | 従量課金 | 従量課金 | 無料(OSS) |
| 出力形式 | TEI/ALTO/PAGE | JSON | テキスト/hOCR |
まとめ
Transkribusは、歴史文書のテキスト化において最も実績のあるプラットフォームである。AIベースのHTRエンジンとカスタムモデル学習機能により、様々な時代・言語の手書き文書に対応できる。DH研究において、テキスト化は多くの分析の出発点であり、Transkribusはその基盤を提供する重要なツールである。