はじめに

FromThePage(フロム・ザ・ページ)は、歴史的文書のクラウドソーシング翻刻(トランスクリプション)に特化したウェブプラットフォームです。ボランティアの協力を得て、手書き文書や活字資料をテキストデータに変換する作業を効率的に管理できます。

米国議会図書館(Library of Congress)やスミソニアン協会(Smithsonian Institution)をはじめとする世界中の図書館・博物館・文書館で採用されており、デジタル・ヒューマニティーズ(DH)における文書デジタル化の中核ツールとなっています。

FromThePageの主な機能

クラウドソーシング翻刻

FromThePageの最大の特徴は、大規模な翻刻プロジェクトをクラウドソーシングで実施できる点です。

  • 翻刻ワークフロー:翻刻→レビュー→承認の段階的なワークフロー
  • リッチテキストエディタ:MarkdownやWikiマークアップに対応
  • バージョン管理:すべての編集履歴を保持
  • ボランティア管理:翻刻者の貢献度追跡、バッジシステム

IIIF対応

FromThePageは、IIIF(International Image Interoperability Framework)に完全対応しています。

# IIIFマニフェストのインポート例
https://example.org/iiif/manifest/12345
  • IIIFマニフェストのインポート:外部のIIIF対応リポジトリから画像を直接取り込み
  • Mirador統合:IIIF画像ビューアMiradorとのシームレスな連携
  • IIIF Content Search API:翻刻テキストをIIIF検索APIで公開
  • IIIFマニフェストのエクスポート:翻刻済みテキストを含むマニフェストの出力

構造化データ入力

単純な翻刻だけでなく、構造化されたデータの入力にも対応しています。

機能説明
フィールドベース翻刻カスタムフォームで構造化データを収集
メタデータ入力文書のメタデータをフィールドごとに記録
スプレッドシート翻刻表形式データの翻刻に特化
マークアップ翻刻TEI-XMLなどのマークアップ付き翻刻

OCR連携

手動翻刻だけでなく、OCR(光学文字認識)との連携機能も備えています。

  • OCR前処理:OCRの出力結果を翻刻の初期テキストとして利用
  • OCR修正ワークフロー:ボランティアがOCR結果を修正
  • HTR対応:手書き文字認識(Handwritten Text Recognition)との連携

導入事例

米国議会図書館

Library of Congressは、By the People(旧Transcribe)プロジェクトでFromThePageを活用し、数万件の歴史的文書をボランティアの力で翻刻しています。大統領の手紙、南北戦争の記録、女性参政権運動の文書など、多様な資料が対象です。

スミソニアン協会

Smithsonian Transcription Centerでは、FromThePageを基盤に、博物館コレクションの翻刻プロジェクトを運営しています。自然史標本のラベル、日記、フィールドノートなどが翻刻されています。

その他の機関

  • ハンティントン図書館:中世写本の翻刻
  • テキサス州立図書館:歴史的法律文書の翻刻
  • 各大学図書館:特殊コレクションのデジタル化

技術的な特徴

エクスポート形式

翻刻結果は、さまざまな形式でエクスポートできます。

  • TEI-XML:人文学テキストの標準的なマークアップ形式
  • Plain Text:プレーンテキスト
  • HTML:ウェブ公開用
  • CSV:構造化データの表形式出力
  • IIIF Manifest:IIIF対応ビューアでの表示用
  • ALTO XML:ページレイアウト情報付きテキスト

API

# FromThePage APIの利用例
curl -H "Accept: application/json" \
  https://fromthepage.com/api/v1/collections

RESTful APIにより、翻刻データのプログラムによる取得が可能です。

料金プラン

FromThePageは、無料プランを含む複数のプランを提供しています。

プラン特徴
無料基本的な翻刻機能、パブリックプロジェクト
機関向けプライベートプロジェクト、カスタマイズ、サポート
エンタープライズ大規模プロジェクト、SLA、専用環境

小規模なプロジェクトや個人研究であれば、無料プランで十分に活用できます。

まとめ

FromThePageは、歴史的文書のクラウドソーシング翻刻に特化した強力なプラットフォームです。IIIFとの完全な統合、構造化データ入力、OCR連携、多様なエクスポート形式など、DH研究に必要な機能を包括的に備えています。

世界中の主要な図書館・博物館での採用実績が示すように、大規模な翻刻プロジェクトの管理にも対応できる信頼性の高いツールです。無料プランも用意されているため、まずは小規模なプロジェクトから試してみることをお勧めします。

参考リンク