本記事は生成AIと共同で執筆しています。記事中の固有名詞・数値・経緯は公開情報をもとに可能な範囲で照合していますが、特に歴史的背景の記述には誤りが含まれる可能性があります。正確な情報は末尾の一次情報をご確認ください。本記事は技術的な仕組みの紹介に主眼を置いています。

デジタルヒューマニティーズ(人文学×デジタル技術)の代表的な大型プロジェクトを紹介するシリーズの1本目です。関連記事:Sailing Letters / Stanford ORBIS / World Historical Gazetteer

このプロジェクトは何か

Venice Time Machine(ヴェネツィア・タイムマシン、VTM) は、ヴェネツィア共和国が長期間にわたって残した大量の公文書を機械的にデジタル化・構造化し、「過去を地図のように検索・再現できるデータベース」を作ろうとしたプロジェクトです。

スイスの EPFL(スイス連邦工科大学ローザンヌ校)と、ヴェネツィアのカ・フォスカリ大学が2012年に共同で立ち上げました。EPFL のデジタルヒューマニティーズ研究所を率いる情報工学者フレデリック・カプラン(Frédéric Kaplan)が中心人物です。カプランはこの構想を「過去のビッグデータ(Big Data of the Past)」(カプランらの2017年論文タイトル)、あるいは TED トーク等で「過去のGoogleマップ」と表現しました。

本記事では、このプロジェクトの技術的な仕組みと、そこで露呈したデータ品質・来歴管理の課題を中心に見ていきます。

技術パイプライン:紙の山を機械でデータに変える

VTM の処理は、おおまかに次の4段階で構想されました。ここがこのプロジェクトの技術的な核心です。

段階内容技術的ポイント
1. スキャン古文書を撮影してデジタル画像にする半自動スキャナで 1時間あたり約1,000ページ のペース
2. 文字の解読手書きの文字画像を機械がテキストに変換手書き文字認識(HTR) ——活字OCRより格段に難しい
3. パターン抽出人名・地名・語句など繰り返し現れる要素を機械的に拾う自然言語処理による固有表現の抽出
4. グラフ化抽出した要素を手がかりに文書同士を結びつける人・場所・時間の関係を「グラフ(網の目)」として再構成

手書き文字認識(HTR)の難しさ

技術的にいちばんの難所は、段階2の HTR(Handwritten Text Recognition) です。

印刷された活字を読む OCR はすでに実用レベルにありますが、数百年前の手書き文書は、

  • 書き手によって字形・癖がバラバラ
  • 略字・合字・当時特有の綴り
  • インクのにじみ・紙の劣化・余白の書き込み

といった要素が重なり、機械にとって極端に難しい対象です。VTM はこの HTR に大規模に取り組んだ点で、技術的に挑戦的なプロジェクトでした。

グラフ化=社会ネットワークの復元

段階4も重要です。たとえば「ある人物が、ある年に、ある土地を、誰かに売却した」という事実を文書から取り出し、人・場所・時間のつながりをグラフとして表現します。これを大量に積み重ねれば、過去の都市の取引関係・血縁・所有関係といった社会ネットワークそのものをデータとして再構成できる——これが VTM の方法論的な狙いでした。

実際に、ヴェネツィアの都市の変遷を再現したモデルは2018年のヴェネツィア・ビエンナーレ(建築展)などで展示されています。

対象データの規模

VTM が対象にしたヴェネツィア国立文書館(Venice State Archive)は、書架の長さにして約80km分という、1000年以上の行政文書を擁します。徹底した記録文化のもとで、税・登録・土地・裁判などの文書が大量に蓄積されてきました。

これは研究資源としては膨大ですが、「人間が読み切れない量」でもあり、機械処理を投入する動機となりました。

2019年に表面化した課題:データ品質と来歴管理

VTM は、デジタルヒューマニティーズにおける「大量デジタル化プロジェクトの落とし穴」を示す事例としても知られます。

2019年、科学誌 Nature は、VTM が中断(suspended)したと報じました(Nature 2019)。報道によれば、ヴェネツィア国立文書館の側が EPFL との協働を見直し、それまでに収集された約8テラバイトのデータについて深刻な問題を指摘しました。争点は技術というよりデータの扱い方にありました。

  • 収集データが「事実上使い物にならない(essentially useless)」と評された
  • デジタル化の作業手順が十分に記録されていなかったため、「どの原本を、どの設定で撮影・処理したのか」を後から検証できない
  • 公文書をデジタル保存する際の国際的な枠組み(InterPARES など、記録の真正性・来歴を担保する作法)に沿っていなかった

これは技術的にきわめて重要な教訓です。いくら大量に・高速にスキャンしても、「そのデータがどう作られたか(来歴・プロベナンス)」を記録・保証しなければ、研究資料として信頼できない、ということです。「速さ・規模」と「正確さ・検証可能性」のどちらを優先するかという、データ基盤構築に普遍的な論点を浮き彫りにしました。

その後の展開

VTM 単体は中断しましたが、その構想は「ヨーロッパ各都市の過去を同様の手法でデジタル化する」という、より大きな枠組み(Time Machine Organisation / Time Machine Europe)へと引き継がれました。なお欧州連合の超大型研究助成「FET Flagship」では、Time Machine 構想が候補として提案・注目された段階まで進みました。

補足(資金源):VTM はしばしば「ERC(欧州研究会議)の大型助成を受けた」と紹介されることがありますが、確認できる範囲では主な資金源は Lombard Odier 財団(2014年〜)、スイス国立科学財団(SNSF)、EU の Horizon 2020 などであり、ERC 助成は確認できませんでした。

技術者・データ実務者にとっての教訓

VTM は、データ基盤を作るすべての人にとって示唆に富みます。

  • 可能性:HTR と自然言語処理で大量の手書き史料をデータ化し、関係をグラフとして可視化する方向性は、いまも有効で発展を続けている
  • 教訓:パイプラインを設計する際、処理の各段階のメタデータ(いつ・何を・どの設定で処理したか)を必ず記録すること。来歴の記録は後付けできない
  • 協働:エンジニアと、史料・記録の専門家(アーキビスト)が、互いの作法を尊重して進める体制が不可欠

「過去をまるごとデータにする」という目標は、技術だけでは完成しません。データの来歴を保証する設計と、専門家との協働があって初めて、集めたデータは「使える」ものになります。

参考リンク