View in English

Dublin Core入門 ― メタデータの共通語彙

資料を説明するための最小限の共通メタデータ語彙 Dublin Core(ダブリンコア/ISO 15836)を、初学者向けに概念から解説します。なぜ共通の語彙が役立つか、15の基本要素(DCMES)と「任意・繰り返し可」という性質、単純DC(unqualified)と限定DC(DCMI Metadata Terms:細分化・符号化スキーム)の違い、アプリケーションプロファイル・クロスウォーク、OAI-PMH の oai_dc、RDF/Linked Data での使われ方まで。Omeka・OAI-PMH・RDF・METS の各回が前提にしてきたメタデータの土台。仕様で事実確認し独自に構成した実験的な動画です。

Dublin CoreDCMIISO 15836MetadataLinked DataDigital Humanities
⚠ この解説は、AIによる実験的な取り組みです(構成・図・音声合成を含む)。不正確な内容を含む可能性があります。ご利用の際はご注意ください。

掛け合い解説(ずんだもん×四国めたん)

別バージョン

ナレーション解説

章立て

  1. 1

    本編

    読み上げ原稿

    • 0:00メタデータの共通語彙

      皆さん、こんにちは。なかむらさとるの解説回です。この回のナレーションは合成音声でお届けします。今回のテーマはDublin Coreです。図書館や博物館、研究の現場で、資料を説明するために広く使われている、共通のメタデータ語彙です。プログラミングの予備知識はなくても大丈夫です。図を交えて、ゆっくり見ていきます。

      メタデータの共通語彙
    • 0:30この動画について

      本題に入る前に、この動画についてです。内容はディーシーエムアイの仕様で事実確認していますが、特定の教材を翻案したものではありません。ナレーションは合成音声で、この回は本人のクローン声ではありません。図はすべて新しく描いた、実験的な取り組みです。不正確な点が残る可能性はご了承ください。

      この動画について
    • 0:57この回のゴール

      この回のゴールです。Dublin Coreは、資料を説明するための、最小限の共通メタデータ語彙です。目標は大きく四つ。共通の語彙だと自分の言葉で説明できること。十五の基本要素と、その性質をつかむこと。単純なDublin Coreと、限定したDublin Coreの違いを説明できること。そして、相互運用の場面でどう使われるか、見当がつくことです。

      この回のゴール
    • 1:30今日の流れ

      今日の流れです。まず、なぜ共通の語彙が役立つのか。つぎに、十五の基本要素を見ます。続いて、単純なDublin Coreと限定したDublin Coreの違い。それから、相互運用の道具を四つ。最後に、ゆるさゆえの落とし穴と、使いどころを考えます。

      今日の流れ
    • 1:54なぜ「共通の語彙」が要る?

      それではまず、なぜ共通の語彙が役立つのか、から始めます。

      なぜ「共通の語彙」が要る?
    • 2:00説明の「項目名」がそろわない

      図を見てください。同じ一枚の写真でも、館によって項目の呼び名がばらばらです。ある館は題名と作者、別の館はタイトルと制作者、と書いています。人間が見れば同じだと分かりますが、機械にとっては別の項目です。これだと、複数の館をまとめて検索したり、データを交換したりするたびに、対応づけをやり直すことになります。必要なのは、最小限でよいので、たがいに通じる共通の言い方です。

      説明の「項目名」がそろわない
    • 2:36Dublin Core = 最小限の共通語彙

      そこで登場するのが共通の語彙です。図のように、各館が自分の項目を共通の語彙に対応づけておけば、たがいに通じ合えます。Dublin Coreは、その代表的な一つで、ディーシーエムアイという団体が策定しています。名前は、最初の会合が開かれたアメリカの町、ダブリンにちなみます。今では国際規格のISOにもなっていて、世界中で参照されています。

      Dublin Core = 最小限の共通語彙
    • 3:08ここまでの確認

      ここまでを整理します。項目名がそろった説明書きがあれば、資料を交換でき、横断して探せます。その最小限の共通語彙が、Dublin Coreでした。では中身を見ていきましょう。

      ここまでの確認
    • 3:2515の基本要素

      まずは、Dublin Coreの十五の基本要素です。

      15の基本要素
    • 3:2915の基本要素(DCMES)

      図を見てください。Dublin Coreには、資料を説明する基本的な観点が十五用意されています。題名、作成者、主題、説明、日付、種類、形式、識別子、権利、などです。大まかに言うと、資料そのものの中身に関わるもの、作成者や権利といった責任に関わるもの、日付や形式といった実体に関わるもの、の三つの方向をカバーしています。むずかしく考えず、説明書きの見出しの一覧、と捉えてください。

      15の基本要素(DCMES)
    • 4:07古写真を15要素で記述する

      実際に当てはめてみます。図のように、一枚の古写真に、題名は町のようす、作成者は不明、日付はおよそ千九百二十年頃、種類は画像、形式はジェイペグ、と説明を入れていきます。種類のように、あらかじめ決まった言葉の一覧から選ぶ項目もあります。分かる範囲でよく、埋まらない項目があってもかまいません。こうした記述の集まりが、検索や交換の手がかりになります。

      古写真を15要素で記述する
    • 4:41すべて任意・繰り返し可

      ここで大事な性質があります。図のとおり、十五の要素はすべて任意で、使わない要素は空のままでかまいません。また、同じ要素を何度繰り返してもよく、並び順も決まっていません。この、ゆるさが、写真でも文書でも遺物でも、いろいろな資料に同じ語彙を当てはめられる強みになります。一方で、あとで触れるように、書き方がそろわない原因にもなります。

      すべて任意・繰り返し可
    • 5:12ここまでの確認

      ここまでの確認です。十五の要素は、いわばゆるい共通項です。分かる範囲で当てはめ、足りなければ繰り返してよい。まずは、そろえるための手軽な道具でした。

      ここまでの確認
    • 5:28単純DC と 限定DC

      つぎに、単純なDublin Coreと、限定したDublin Coreという、二つの使い方を見ます。

      単純DC と 限定DC
    • 5:35単純DC(unqualified)

      一つめは、単純なDublin Coreです。十五の要素を、そのまま使う、いちばん手軽な形です。書きやすく、どこでも受け取りやすいので、データを広く交換する場面に向いています。一方で、表現がおおまかになりがちです。たとえば日付という要素だけでは、それが作成日なのか、公開日なのか、撮影日なのか、区別がつきません。

      単純DC(unqualified)
    • 6:04限定DC(DCMI Metadata Terms)

      二つめは、限定したDublin Coreです。図を見てください。日付という要素を、作成日、公開日、更新日、のように、より細かく分けられます。これを要素の細分化と呼びます。さらに、値の書き方を、決まった形式に固定することもできます。大事な約束として、細分化した項目も、対応できない相手には、元のおおまかな要素として読み替えられます。精度を足しつつ、互換性も保てる仕組みです。

      限定DC(DCMI Metadata Terms)
    • 6:41二つの名前空間 dc: と dcterms:

      この二つは、名前空間という形で整理されています。図のように、ディーシーという名前空間が元の十五要素、ディーシータームズという名前空間が、それを含む拡張版です。それぞれの語には、ウェブ上の住所にあたる、固有の識別子が与えられています。だから、人にも機械にも、どの語を指しているかが、はっきり伝わります。用途に応じて使い分けます。

      二つの名前空間 dc: と dcterms:
    • 7:11ここまでの確認

      ここまでの確認です。粗いまま手軽に使う、単純なDublin Coreと、精度を足す、限定したDublin Core。どちらも同じ語彙の上にあり、必要に応じて選べます。

      ここまでの確認
    • 7:26相互運用の道具

      ここからは、Dublin Coreが力を発揮する、相互運用の道具を、四つ見ていきます。

      相互運用の道具
    • 7:34アプリケーションプロファイル

      一つめは、アプリケーションプロファイルです。図のように、たくさんある語彙の中から、自分たちが使う要素を選び、必須か任意か、どんな書き方にするか、といった規則を決めた取り決めです。たとえば、ある館では、題名と日付は必須、作成者は任意、と決めておく。こうしておくと、ゆるい語彙に、その現場ならではの一貫性を与えられます。

      アプリケーションプロファイル
    • 8:04クロスウォーク(対応表)

      二つめは、クロスウォークです。図のように、Dublin Coreと、より詳しい標準、たとえばMODSやマーク、の間で、同じ意味の項目を対応づける表です。これがあると、ある標準で作った記述を、別の標準へ移し替えられます。ただし、詳しい標準からDublin Coreへ移すときは、細かい区別が、おおまかにまとめられることもあります。

      クロスウォーク(対応表)
    • 8:32メタデータ収集の共通形式 oai_dc

      三つめは、メタデータ収集との関係です。メタデータを集めて回る仕組み、OAI-PMHでは、図のように、単純なDublin CoreをXMLで表した形を、どの提供者も必ず出せることになっています。提供する側が、この最小の共通形式さえそろえておけば、収集する側は、いろいろな館のデータをまとめて受け取れます。

      メタデータ収集の共通形式 oai_dc
    • 9:01DC Terms は RDF の述語にもなる

      四つめは、リンクト・データとの関係です。図を見てください。先ほど、各語には固有の識別子があると述べました。そのおかげで、ディーシータームズの語は、RDFの述語としても使えます。主語、述語、目的語、という一つの文になり、リンクト・データに乗ります。たとえば、この古写真の作成者は、なかむらさとる、という関係を、機械が扱える形で表せます。

      DC Terms は RDF の述語にもなる
    • 9:35ここまでの確認

      ここまでの確認です。プロファイル、クロスウォーク、メタデータ収集、リンクト・データ。Dublin Coreは、ほかの標準や仕組みをつなぐ、橋として働きます。

      ここまでの確認
    • 9:49落とし穴と使いどころ

      最後に、ゆるさゆえの落とし穴と、使いどころを考えます。

      落とし穴と使いどころ
    • 9:55ゆるさゆえの落とし穴

      図を見てください。ゆるさは利点であると同時に、注意点でもあります。たとえば同じ日付でも、千九百二十、千九百二十年頃、大正九年、と書き方がそろわないことがあります。これだと、年代順に並べるような、機械の処理がしにくくなります。また、項目が任意なので、館によって埋まり方にもばらつきが出ます。こうした粗さや形式のゆれは、決まった書き方や、プロファイル、限定したDublin Coreで補えます。

      ゆるさゆえの落とし穴
    • 10:31まず「そろえる」、詳細は橋渡し

      使いどころです。まずは最小の共通項として、Dublin Coreでそろえる。そして、詳しい記述が要る資料は、専門の標準と組み合わせて橋渡しします。なお、何を主題に選び、どんな言葉で説明するかには、作り手の判断が入ります。同じ写真でも、注目する点が違えば、書かれる説明も変わります。記述は中立ではない、という点も、心に留めておきたいところです。

      まず「そろえる」、詳細は橋渡し
    • 11:06考えてみよう

      ここで少し、考えてみましょう。あなたの手元の資料を、十五の要素で書いてみると、どうでしょうか。どの項目は埋まり、どの項目は不明になりますか。日付や種類は、どんな書き方なら、機械にも伝わるでしょうか。よろしければ、ここで一度、動画を止めて、考えてみてください。

      考えてみよう
    • 11:31まとめ

      今日のまとめです。Dublin Coreは、資料を説明する、最小限の共通語彙でした。十五の基本要素は、任意で、繰り返し可能で、順序も自由。手軽な単純なDublin Coreと、精度を足す限定したDublin Coreを、選べます。プロファイルやクロスウォーク、メタデータ収集、リンクト・データで、ほかの標準とつながる。まずそろえ、詳細は専門の標準と橋渡しする。それが、Dublin Coreとの付き合い方です。

      まとめ
    • 12:08出典・ライセンス

      出典とライセンスです。本動画のスライド、図、ナレーション原稿は、シーシー・バイ よんてんゼロで公開します。出典を示せば、自由に再利用いただけます。事実確認には、ディーシーエムアイの仕様を、翻案せずに参照しました。ご清聴ありがとうございました。

      出典・ライセンス