東北大学デジタルアーカイブの公開 API 調査 — OAI-PMH 経由で setSpec ごとに Excel 出力する
本記事は生成AIと共同で執筆しています。事実関係は可能な範囲で公式ドキュメント等と照合していますが、誤りが含まれている可能性があります。重要な判断を行う前にご自身でも一次情報をご確認ください。 東北大学デジタルアーカイブ(touda.tohoku.ac.jp/collection)にあるデルゲ版チベット大蔵経 DB を見ていて、JSON で取得できる経路がないかと気になり、公開 API の有無を一通り確認しました。最終的に OAI-PMH 経由で setSpec ごとに Excel 化するところまで動かせたので、その手順を整理します。スクレイピングは利用しない方針で進めています。 公開されているエンドポイントの一覧 調査した範囲で確認できた状態は次のとおりです(2026-04-30 時点)。 種別 エンドポイント 状態 OAI-PMH https://touda.tohoku.ac.jp/collection/oai 公開(3 形式) IIIF Presentation v3 manifest https://touda.tohoku.ac.jp/collection/iiif/scripture/{ID}/manifest.json 公開(個別レコード単位) IIIF Image API v2 manifest 内の service URL 公開 Sitemap https://touda.tohoku.ac.jp/collection/sitemap.xml 公開(後述のとおりカバレッジ部分的) Drupal JSON:API(/jsonapi) — 確認した範囲では未公開 Drupal REST(?_format=json) — 500 が返る OpenSearch / RSS / Atom / IIIF Search / Solr 直叩き — 404 サイト基盤は Drupal で動いているようで、?_format=hal_json でリクエストすると application/hal+json の 406 が返ってきました。?_format=json / ?_format=hal_json は Drupal Core の RESTful Web Services(rest)モジュール、/jsonapi は同じく Core 同梱の JSON:API モジュールが提供する仕様で、いずれも Drupal 標準の機能ではあります。ただし Drupal 8.4 以降、これらは既定で無効になっており、管理者が明示的に有効化したうえでエンティティ単位の REST resource と権限設定を行う必要があります。touda の挙動(406 / 500 / /jsonapi 非公開)は、エンドユーザ向けには有効化されていない状態と読めました。バルクで取得したい場合の現実的な経路は OAI-PMH になりそうでした。 ...