FromThePage:クラウドソーシングで歴史文書を翻刻する
はじめに FromThePage(フロム・ザ・ページ)は、歴史的文書のクラウドソーシング翻刻(トランスクリプション)に特化したウェブプラットフォームです。ボランティアの協力を得て、手書き文書や活字資料をテキストデータに変換する作業を効率的に管理できます。 米国議会図書館(Library of Congress)やスミソニアン協会(Smithsonian Institution)をはじめとする世界中の図書館・博物館・文書館で採用されており、デジタル・ヒューマニティーズ(DH)における文書デジタル化の中核ツールとなっています。 FromThePageの主な機能 クラウドソーシング翻刻 FromThePageの最大の特徴は、大規模な翻刻プロジェクトをクラウドソーシングで実施できる点です。 翻刻ワークフロー:翻刻→レビュー→承認の段階的なワークフロー リッチテキストエディタ:MarkdownやWikiマークアップに対応 バージョン管理:すべての編集履歴を保持 ボランティア管理:翻刻者の貢献度追跡、バッジシステム IIIF対応 FromThePageは、IIIF(International Image Interoperability Framework)に完全対応しています。 # IIIFマニフェストのインポート例 https://example.org/iiif/manifest/12345 IIIFマニフェストのインポート:外部のIIIF対応リポジトリから画像を直接取り込み Mirador統合:IIIF画像ビューアMiradorとのシームレスな連携 IIIF Content Search API:翻刻テキストをIIIF検索APIで公開 IIIFマニフェストのエクスポート:翻刻済みテキストを含むマニフェストの出力 構造化データ入力 単純な翻刻だけでなく、構造化されたデータの入力にも対応しています。 機能 説明 フィールドベース翻刻 カスタムフォームで構造化データを収集 メタデータ入力 文書のメタデータをフィールドごとに記録 スプレッドシート翻刻 表形式データの翻刻に特化 マークアップ翻刻 TEI-XMLなどのマークアップ付き翻刻 OCR連携 手動翻刻だけでなく、OCR(光学文字認識)との連携機能も備えています。 OCR前処理:OCRの出力結果を翻刻の初期テキストとして利用 OCR修正ワークフロー:ボランティアがOCR結果を修正 HTR対応:手書き文字認識(Handwritten Text Recognition)との連携 導入事例 米国議会図書館 Library of Congressは、By the People(旧Transcribe)プロジェクトでFromThePageを活用し、数万件の歴史的文書をボランティアの力で翻刻しています。大統領の手紙、南北戦争の記録、女性参政権運動の文書など、多様な資料が対象です。 スミソニアン協会 Smithsonian Transcription Centerでは、FromThePageを基盤に、博物館コレクションの翻刻プロジェクトを運営しています。自然史標本のラベル、日記、フィールドノートなどが翻刻されています。 その他の機関 ハンティントン図書館:中世写本の翻刻 テキサス州立図書館:歴史的法律文書の翻刻 各大学図書館:特殊コレクションのデジタル化 技術的な特徴 エクスポート形式 翻刻結果は、さまざまな形式でエクスポートできます。 TEI-XML:人文学テキストの標準的なマークアップ形式 Plain Text:プレーンテキスト HTML:ウェブ公開用 CSV:構造化データの表形式出力 IIIF Manifest:IIIF対応ビューアでの表示用 ALTO XML:ページレイアウト情報付きテキスト API # FromThePage APIの利用例 curl -H "Accept: application/json" \ https://fromthepage.com/api/v1/collections RESTful APIにより、翻刻データのプログラムによる取得が可能です。 ...
