本記事は生成AIと共同で執筆しています。記事中の固有名詞・数値・経緯は公開情報をもとに可能な範囲で照合していますが、特に歴史的背景の記述には誤りが含まれる可能性があります。正確な情報は末尾の一次情報をご確認ください。本記事はデータ構築の技術的な側面に主眼を置いています。

デジタルヒューマニティーズの代表的な大型プロジェクトを紹介するシリーズの2本目です。関連記事:Venice Time Machine / Stanford ORBIS / World Historical Gazetteer

このプロジェクトは何か

Sailing Letters(セイリング・レターズ) は、戦争で拿捕された船から押収され、英国の公文書館に長く保管されてきたオランダ語の手紙、約38,000通を再発見し、デジタル化・コーパス化したプロジェクトです。

その多くは宛先に届かなかった私信で、歴史の表舞台に登場しない庶民——女性や子どもを含む——の生の言葉が記録されています。本記事では、この史料群をどのように構造化されたデータ(言語コーパス)に変換したかという技術的な側面を中心に紹介します。

背景(なぜ英国にオランダ語の手紙があるのか)

技術の話に入る前に、最小限の背景だけ押さえます。

17〜18世紀、オランダとイングランドは複数回の戦争(英蘭戦争)を戦いました。当時、政府は民間船に「私掠免許状(letter of marque)」を発行し、敵国船の拿捕を合法的に認めていました。拿捕されたオランダ船は英国の High Court of Admiralty(海事高等法院) に持ち込まれ、その審査のために船上の紙片——船舶書類・積荷目録・私信まで——が証拠として押収・保管されました。

こうして本来オランダに届くはずだった手紙が英国側に残り、現在はロンドン郊外キューの The National Archives(英国国立公文書館) に所蔵されています。

※この段落は概略です。戦争の回数・年代・制度の細部は一般的な歴史記述に基づいており、正確な定義は専門の歴史資料をご確認ください。

再発見とデジタル化の経緯

  • 1970年代末〜1980年ごろ、この拿捕文書群の存在がオランダ側の研究者によって(あらためて)注目されます
  • 2005年、オランダ国立図書館(KB、デン・ハーグ)の発案で、歴史家ロエロフ・ファン・ヘルダー(Roelof van Gelder)が予備目録を作成し、拿捕されたオランダ船の手紙を約38,000通と推計しました
  • このうち私信は約15,000通とされ、残りは商業書簡などです

KB はこれを「Sailing Letters」事業として立ち上げ、画像化(保存事業 Metamorfoze)や一般向け書籍シリーズの刊行を進めました。

技術的中核:言語コーパスの構築

このプロジェクトを学術データとして活かしたのが、ライデン大学の研究プログラム Brieven als Buit / Letters as Loot(戦利品としての手紙) です。言語学者マライケ・ファン・デル・ヴァル(Marijke van der Wal)が主導し、2008〜2013年に行われました。

データ構築の観点で重要なのは、次の3点です。

1. 原文忠実翻刻(diplomatic transcription)

手紙を「正しく直して」入力するのではなく、つづり間違い・略字・句読法まで、書き手が実際に書いたとおりに忠実に翻刻します。これは言語研究にとって決定的です。なぜなら、研究対象がまさに「庶民が実際にどう書いたか」だからです。現代的に正規化してしまうと、最も貴重な情報(当時の綴り・方言・誤用)が失われてしまいます。

2. 詳細なメタデータ設計

1通ごとに、書き手の性別・社会階層・年齢・出身地・宛先との関係などをメタデータとして付与します。この構造化により、

  • 社会階層・地域・性別による言葉の違い
  • 自筆か代筆かの判別(識字率の研究)

といった**計量的な分析(社会言語学)**が可能になります。これが「下からの言語史(language history from below)」と呼ばれるアプローチです。

3. 市民参加(クラウド翻刻)と公開コーパス

翻刻作業の一部はボランティアの市民参加で進められました。最終的に整備された公開コーパス(Brieven als Buit)は約1,033通で、性別・階層・年代などのメタデータ付きで検索できます。

注意:「約38,000通」はコレクション全体の概算であり、精密にコーパス化・公開されたのは約1,033通です。すべてが同じ精度でデジタル化されているわけではありません。

補足:このコーパスをホストする研究機関のサイトは、2026年5月のサイバー攻撃の影響で一時的にアクセスできない時期がありました。リンク先が表示されない場合は時間をおいてお試しください。

混同しやすい別プロジェクト:Prize Papers Project

Sailing Letters とよく混同されるのが、ドイツ主導の Prize Papers Project です。両者は同じキューの文書群を扱いますが、規模も主体も目的も異なります

Sailing Letters / Brieven als BuitPrize Papers Project
主体オランダ(KB+ライデン大学)ゲッティンゲン科学アカデミー主管/オルデンブルク大学が実施(英国国立公文書館は所蔵・協力)
対象拿捕文書のうちオランダ語の手紙のみPrize Papers コレクション全体(全言語・全国籍)
目的言語学・社会史のための精密なコーパス化網羅的なデジタル化・カタログ化
規模の目安オランダ語の手紙 約38,000通(公開コーパスは約1,033通)拿捕船 約35,000隻、未送達書簡 16万通超、19言語、画像350万点(2037年完成予定)

「16万通」「19言語」「350万画像」といった巨大な数字は**後者(Prize Papers Project)**のものです。Sailing Letters のオランダ語コーパスとは別レイヤーなので混同しないよう注意してください。

データ構築の観点での意義

このプロジェクトが示した方法論的なポイントは、次のとおりです。

  • 正規化しない翻刻の価値:研究目的によっては「誤りも含めて原文どおり」記録することが本質的に重要——データ設計はつねに「何を分析したいか」に従う
  • メタデータが分析の幅を決める:書き手属性を構造化しておくことで、後から多様な計量分析が可能になる
  • 市民参加と専門研究の結合:クラウド翻刻でスケールを稼ぎつつ、専門家が品質を担保する分業

「届かなかった手紙」という史料を、原文忠実翻刻と構造化メタデータによって計量分析可能なコーパスに変える——この設計思想は、歴史テキストをデータ化するあらゆる場面で参考になります。

参考リンク