はじめに
FromThePage(フロム・ザ・ページ)は、歴史的文書のクラウドソーシング翻刻(トランスクリプション)に特化したウェブプラットフォームです。ボランティアの協力を得て、手書き文書や活字資料をテキストデータに変換する作業を効率的に管理できます。
米国議会図書館(Library of Congress)やスミソニアン協会(Smithsonian Institution)をはじめとする世界中の図書館・博物館・文書館で採用されており、デジタル・ヒューマニティーズ(DH)における文書デジタル化の中核ツールとなっています。
FromThePageの主な機能
クラウドソーシング翻刻
FromThePageの最大の特徴は、大規模な翻刻プロジェクトをクラウドソーシングで実施できる点です。
- 翻刻ワークフロー:翻刻→レビュー→承認の段階的なワークフロー
- リッチテキストエディタ:MarkdownやWikiマークアップに対応
- バージョン管理:すべての編集履歴を保持
- ボランティア管理:翻刻者の貢献度追跡、バッジシステム
IIIF対応
FromThePageは、IIIF(International Image Interoperability Framework)に完全対応しています。
# IIIFマニフェストのインポート例
https://example.org/iiif/manifest/12345
- IIIFマニフェストのインポート:外部のIIIF対応リポジトリから画像を直接取り込み
- Mirador統合:IIIF画像ビューアMiradorとのシームレスな連携
- IIIF Content Search API:翻刻テキストをIIIF検索APIで公開
- IIIFマニフェストのエクスポート:翻刻済みテキストを含むマニフェストの出力
構造化データ入力
単純な翻刻だけでなく、構造化されたデータの入力にも対応しています。
| 機能 | 説明 |
|---|---|
| フィールドベース翻刻 | カスタムフォームで構造化データを収集 |
| メタデータ入力 | 文書のメタデータをフィールドごとに記録 |
| スプレッドシート翻刻 | 表形式データの翻刻に特化 |
| マークアップ翻刻 | TEI-XMLなどのマークアップ付き翻刻 |
OCR連携
手動翻刻だけでなく、OCR(光学文字認識)との連携機能も備えています。
- OCR前処理:OCRの出力結果を翻刻の初期テキストとして利用
- OCR修正ワークフロー:ボランティアがOCR結果を修正
- HTR対応:手書き文字認識(Handwritten Text Recognition)との連携
導入事例
米国議会図書館
Library of Congressは、By the People(旧Transcribe)プロジェクトでFromThePageを活用し、数万件の歴史的文書をボランティアの力で翻刻しています。大統領の手紙、南北戦争の記録、女性参政権運動の文書など、多様な資料が対象です。
スミソニアン協会
Smithsonian Transcription Centerでは、FromThePageを基盤に、博物館コレクションの翻刻プロジェクトを運営しています。自然史標本のラベル、日記、フィールドノートなどが翻刻されています。
その他の機関
- ハンティントン図書館:中世写本の翻刻
- テキサス州立図書館:歴史的法律文書の翻刻
- 各大学図書館:特殊コレクションのデジタル化
技術的な特徴
エクスポート形式
翻刻結果は、さまざまな形式でエクスポートできます。
- TEI-XML:人文学テキストの標準的なマークアップ形式
- Plain Text:プレーンテキスト
- HTML:ウェブ公開用
- CSV:構造化データの表形式出力
- IIIF Manifest:IIIF対応ビューアでの表示用
- ALTO XML:ページレイアウト情報付きテキスト
API
# FromThePage APIの利用例
curl -H "Accept: application/json" \
https://fromthepage.com/api/v1/collections
RESTful APIにより、翻刻データのプログラムによる取得が可能です。
料金プラン
FromThePageは、無料プランを含む複数のプランを提供しています。
| プラン | 特徴 |
|---|---|
| 無料 | 基本的な翻刻機能、パブリックプロジェクト |
| 機関向け | プライベートプロジェクト、カスタマイズ、サポート |
| エンタープライズ | 大規模プロジェクト、SLA、専用環境 |
小規模なプロジェクトや個人研究であれば、無料プランで十分に活用できます。
まとめ
FromThePageは、歴史的文書のクラウドソーシング翻刻に特化した強力なプラットフォームです。IIIFとの完全な統合、構造化データ入力、OCR連携、多様なエクスポート形式など、DH研究に必要な機能を包括的に備えています。
世界中の主要な図書館・博物館での採用実績が示すように、大規模な翻刻プロジェクトの管理にも対応できる信頼性の高いツールです。無料プランも用意されているため、まずは小規模なプロジェクトから試してみることをお勧めします。