View in English

OAI-PMH入門 ― メタデータを集めて、横断する

リポジトリからメタデータを機械的に集める(ハーベストする)ための古くからの標準プロトコル OAI-PMH を、初学者向けに概念から解説する約20分の動画。データプロバイダとサービスプロバイダの2つの役割、HTTP+XML、6つのverb、レコード構造(ヘッダ+メタデータ=Dublin Core)、セットと差分収集、そして横断検索・ポータルでの集約までを図で見る。メタデータを集めるOAI-PMHと、画像のIIIF・テキストのDTSという対比でも捉えられる。

OAI-PMHMetadata HarvestingDublin CoreRepositoriesInteroperabilityDigital Humanities
⚠ この解説は、AIによる実験的な取り組みです(構成・図・音声合成を含む)。不正確な内容を含む可能性があります。ご利用の際はご注意ください。

掛け合い解説(ずんだもん×四国めたん)

別バージョン

ナレーション解説

章立て

  1. 1

    本編

    OAI-PMHが解く問題・データ/サービスプロバイダの2役割・HTTP+XML・6つのverb・レコード(ヘッダ+Dublin Core)・セット/差分収集・横断検索での集約・IIIF/DTSとの対比

    読み上げ原稿

    • 0:00メタデータを集めて、横断する

      皆さん、こんにちは。デジタル・ヒューマニティーズ入門、技術要素シリーズを担当します、なかむらさとるです。この回のテーマは、OAI-PMHです。これは、いろいろなリポジトリに散らばった、メタデータを、機械的に集めて、横断して使うための、古くからの、標準的なやり方です。デジタル・アーカイブを、支える、地味だけれど、大切な仕組みを、初学者向けに、図を交えながら、ゆっくり見ていきます。

      メタデータを集めて、横断する
    • 0:33この動画について

      はじめに、この動画について、簡単に、ご案内します。この動画は、クリエイティブ・コモンズ(CC)などで、公開されている、オープンな資料を、参照しつつ、独自に、構成した、解説です。スライドと、図は、新規に作成し、ナレーションは、本人の声をもとにした、AIの、音声合成で、つくっています。あくまで、実験的な、取り組みですので、内容は、ご確認・ご注意のうえ、ご利用ください。出典と、ライセンスは、動画の最後と、概要欄に、まとめてあります。それでは、本編に、入りましょう。

      この動画について
    • 1:17この回のゴール

      まず、この回のゴールを、確認しておきましょう。大きく、四つです。一つめは、OAI-PMHが、どんな問題を、解くプロトコルかを、自分の言葉で、説明できること。二つめは、データプロバイダと、サービスプロバイダ、という、二つの役割を、区別できること。三つめは、六つの、動詞と、レコードが、ヘッダと、メタデータから、なることを、イメージできること。そして四つめは、セットや、日付での、差分の収集が、横断検索や、集約を、支えていると、説明できることです。

      この回のゴール
    • 2:00今日の流れ

      今日の流れです。はじめに、なぜ、メタデータを、集めたいのか。散らばる目録の、問題から、見ます。つぎに、出す側と、集める側、という、二つの役割。それから、六つの、動詞と、レコードの形。さらに、セットと、日付で、選んで、差分で、集める工夫。最後に、横断検索や、集約の、うれしさと、画像の、IIIF、テキストの、DTSとの、対比、そして、はじめの一歩を、紹介します。

      今日の流れ
    • 2:41なぜメタデータを集めるのか

      それでは、はじめましょう。まずは、なぜ、メタデータを、集めるのか。目録が、館ごとに、散らばっている、という問題から、見ていきます。

      なぜメタデータを集めるのか
    • 2:55目録が、館ごとに散らばっている

      図を、見てください。資料の、メタデータ、つまり、目録の情報は、ふつう、それぞれの、リポジトリの、中にあります。一つの館の、中だけなら、それで、困りません。けれど、複数の館を、またいで、横断して、探したいとなると、どうでしょう。利用者は、館を、一つずつ、巡って、それぞれの、検索画面で、探すしか、なくなります。情報が、館ごとに、閉じてしまっている、というわけです。

      目録が、館ごとに散らばっている
    • 3:30OAI-PMH = メタデータを「収穫」する約束

      そこで、登場するのが、OAI-PMHです。図のように、これは、リポジトリから、メタデータを、機械的に、集める、いわば、収穫するための、共通の、プロトコルです。集める側の、プログラムが、それぞれのリポジトリを、同じ手順で、訪ね、メタデータを、受け取って、一つの、窓口に、まとめていく。人が、一つずつ、巡る代わりに、機械が、まとめて、集めてくれる、というわけです。

      OAI-PMH = メタデータを「収穫」する約束
    • 4:03ここまでの整理

      ここまでを、整理します。資料の、メタデータは、館ごとの、リポジトリに、散らばっていました。横断して、使うには、機械的に、集める、仕組みが、要ります。OAI-PMHは、その、収穫の、手順を、取り決めた、古くからの、標準です。ここで、大事な、前提を、一つ。このプロトコルが、運ぶのは、メタデータであって、資料そのもの、本文や、画像、ではありません。ここは、最後まで、覚えておいてください。

      ここまでの整理
    • 4:412つの役割

      ここからは、二つの、役割の、お話です。メタデータを、出す側と、集める側。それぞれを、見ていきましょう。

      2つの役割
    • 4:52データプロバイダと、サービスプロバイダ

      図を、見てください。役割は、二つです。一つは、データプロバイダ。メタデータを、公開する側で、ふだん、私たちが、リポジトリ、と呼ぶ、ものです。もう一つは、サービスプロバイダ。公開された、メタデータを、集めて、横断検索などの、サービスを、提供する側で、ハーベスタ、つまり、収穫する人、とも、呼ばれます。出す側と、集める側。この、二つの、役割の、組み合わせで、全体が、成り立っています。

      データプロバイダと、サービスプロバイダ
    • 5:30HTTPで尋ね、XMLで返る

      では、両者は、どうやって、やり取りするのでしょう。図のように、とても、シンプルです。集める側の、ハーベスタが、HTTP、つまり、ふつうの、ウェブのアクセスで、URLに、お願いを、書いて、送ります。すると、リポジトリは、XMLという、形式で、メタデータを、返します。特別な、仕掛けは、要らず、ウェブの、基本的な、技術だけで、動く。だからこそ、多くの、システムで、実装しやすいのです。

      HTTPで尋ね、XMLで返る
    • 6:07ここまでの整理

      ここまでを、整理します。出す側の、データプロバイダが、メタデータを、公開し、集める側の、サービスプロバイダが、それを、ハーベスト、つまり、収穫します。やり取りは、HTTPの、お願いと、XMLの、応答だけ。とても、シンプルで、実装しやすい。では、集める側は、具体的に、何を、尋ねるのでしょう。つぎは、六つの、動詞を、見ていきます。

      ここまでの整理
    • 6:436つのverbとレコードの形

      ここからは、六つの、動詞と、レコードの形です。何を、尋ね、何が、返ってくるのか。具体的に、見ていきましょう。

      6つのverbとレコードの形
    • 6:55尋ね方は、たった6つの動詞

      図を、見てください。尋ね方は、たった、六つの、動詞、英語で、バーブだけ、と、決まっています。大きく、三つの、グループに、分けられます。まず、相手の、素性を、知るための、下調べ。つぎに、メタデータを、一覧で、まとめて、集めるもの。そして、必要なら、一件だけを、取り出すもの。実際の、収穫では、一覧で、まとめて取る、ListRecordsと、一件ずつ取る、GetRecordが、中心になります。たった、六つ、と、覚えておけば、十分です。

      尋ね方は、たった6つの動詞
    • 7:38レコード=ヘッダ+メタデータ

      では、返ってくる、一件、一件は、どんな形を、しているのでしょう。図のように、レコードは、大きく、二つの、部分から、できています。一つは、ヘッダ。このレコードの、識別子、つまり、名前と、いつ、更新されたか、という、日付、それに、どのセットに、属するか、が、入ります。もう一つが、メタデータの、本体です。最低限、Dublin Core、という、共通の、項目で、返せる、という、約束に、なっています。タイトル、作成者、年代、といった、おなじみの、項目ですね。

      レコード=ヘッダ+メタデータ
    • 8:24選んで・差分で集める

      集めるときには、賢い、工夫が、三つ、あります。図を、見てください。一つめは、セット。あらかじめ、決められた、グループで、範囲を、絞って、集められます。二つめは、日付。更新された、日付を、指定して、前回、集めて以降に、変わった分だけを、取れます。差分の、収集ですね。三つめは、続きトークン。一度に、返しきれない、大量の、データを、何回かに、分けて、小分けに、受け取るための、しおりのような、仕組みです。

      選んで・差分で集める
    • 9:07ここまでの整理

      ここまでを、整理します。尋ね方は、六つの、動詞。一覧で、集め、必要なら、一件ずつ、取る。レコードは、ヘッダと、メタデータから、なり、最低限、Dublin Coreで、返せる。そして、セット、日付、続きトークンで、必要な分だけ、差分で、小分けに、集められる。この仕組みが、そろうと、いったい、何が、うれしいのか。つぎは、集約の、お話です。

      ここまでの整理
    • 9:45何がうれしいか

      ここからは、集めた、その先。何が、うれしいのか、という、お話です。集めて、横断する、ことの、価値を、見ていきましょう。

      何がうれしいか
    • 9:57ばらばらの目録を、一つの窓口に

      図を、見てください。多くの、リポジトリから、メタデータを、集めて、一か所に、ためておけば、それらを、まとめて、検索できる、ポータルを、作ることが、できます。利用者は、もう、館を、一つずつ、巡る、必要は、ありません。一つの、窓口で、横断的に、見渡し、探せるように、なります。ばらばらだった、目録が、一つの、入り口に、集まる。これが、集約の、いちばんの、うれしさです。

      ばらばらの目録を、一つの窓口に
    • 10:33たとえば、こんな場面で

      たとえば、こんな、場面が、考えられます。たくさんの、機関リポジトリの、論文や、資料の情報を、集めて、横断検索の、サービスにする。図書館や、博物館の、目録を、集約して、分野を、またいだ、ポータルを、作る。さらに、日付での、差分収集で、定期的に、更新し、情報の、鮮度を、保つ。こうして、各館を、一つずつ、見て回る、から、一か所で、見渡す、へと、変わっていきます。集約は、資料との、出会いを、助けてくれます。

      たとえば、こんな場面で
    • 11:15「メタデータ」を集める ― IIIF・DTSとの対比

      ここで、このシリーズの、ほかの回と、つなげてみましょう。図のように、OAI-PMHが、運ぶのは、目録、つまり、メタデータです。いっぽう、画像そのものを、扱うのは、IIIF。テキストそのものを、扱うのは、DTS、でした。それぞれ、何を、運ぶかが、違っていて、互いに、補い合う、関係に、あります。メタデータで、見つけ、本体は、別の仕組みで、たどる、というふうに、組み合わせて、使われます。

      「メタデータ」を集める ― IIIF・DTSとの対比
    • 11:55デジタル・ヒューマニティーズでの活用

      デジタル・ヒューマニティーズでも、この力が、生きてきます。図のように、集めた、メタデータは、一件ずつ、見るだけでなく、分析の、素材にも、なります。たとえば、年代の、分布を、数えてみる。主題が、どのように、広がっているかを、俯瞰してみる。たくさんの、メタデータを、大きく、見渡すことで、これまで、気づかなかった、傾向や、問いが、見えてくる、こともあります。

      デジタル・ヒューマニティーズでの活用
    • 12:27少し、考えてみましょう

      ここで、少し、立ち止まって、考えてみましょう。あなたが、横断して、探したい、資料は、どこに、ありますか。いくつの、リポジトリに、ばらばらに、置かれて、いるでしょうか。そして、もし、それらを、一か所で、見渡せたら、どんな、問いを、立てられそうですか。よろしければ、ここで一度、動画を止めて、思い浮かべてみてください。

      少し、考えてみましょう
    • 13:03集めたあとに、残る問い

      ここで、いくつか、留意点も、おさえておきましょう。集約の、質は、それぞれの館の、メタデータの、質や、粒度に、左右されます。項目の、ばらつきを、ととのえる、手間が、しばしば、要ります。また、運ぶのは、あくまで、メタデータで、本文や、画像といった、本体は、別の仕組みで、たどります。そして、これは、古くからの、堅実な、標準ですが、近年は、ウェブエーピーアイや、ResourceSync、といった、別の選択肢も、あります。用途に応じて、選ぶのが、よいでしょう。

      集めたあとに、残る問い
    • 13:49自分で触れてみるなら

      では、自分でも、触れてみたい、と思ったら、どうすれば、よいでしょう。まずは、公開されている、OAIの、窓口に、verb、イコール、アイデンティファイ、という、お願いを、付けて、開いてみて、返ってくる、XMLを、眺めてみる。つぎに、verb、イコール、ListRecordsに、メタデータの、形式として、oai_dcを、指定して、レコードの、姿を、見てみる。体系的に、学ぶなら、公式の、仕様書で、それぞれの、動詞の、説明を、読むと、よいでしょう。

      自分で触れてみるなら
    • 14:35まとめ

      今日の、まとめです。OAI-PMHは、リポジトリから、メタデータを、集める、ための、共通の、プロトコルでした。出す、データプロバイダと、集める、サービスプロバイダが、HTTPと、XMLで、やり取りします。六つの、動詞、ヘッダと、メタデータからなる、レコード、そして、セット、日付、続きトークンで、差分の、収集ができる。だからこそ、ばらばらの、目録を、横断検索し、集約できる。運ぶのは、メタデータで、画像の、IIIFや、テキストの、DTSと、補い合う。資料を、各館に、閉じた、目録から、集めて、見渡せる、資源へ。そんな、視点を、手にできたのでは、ないでしょうか。

      まとめ
    • 15:39出典・ライセンス

      この動画は、オープン・アーカイブズ・イニシアティブによる、メタデータ・ハーベスティングの、プロトコル、バージョン二の、公式仕様を、参照して、作成しました。この仕様は、クリエイティブ・コモンズ(CC)の、表示・継承、という、ライセンスで、公開されています。本シリーズの、方針に従い、翻案は、せず、事実確認と、着想元としてのみ、参照し、本文・図・例は、すべて、新規に、作成しています。

      出典・ライセンス
    • 16:14ご清聴ありがとうございました

      以上で、OAI-PMHの、入門を、終わります。散らばった、メタデータを、集めて、横断する。その、第一歩を、つかんでいただけたなら、と思います。ご清聴、ありがとうございました。

      ご清聴ありがとうございました