ホーム 記事一覧 ブック DH週間トピックス 検索 このサイトについて
English
Internet Archive:世界最大のデジタルアーカイブを活用する

Internet Archive:世界最大のデジタルアーカイブを活用する

はじめに Internet Archive(インターネット・アーカイブ)は、1996年にBrewster Kahle(ブリュースター・ケール)によって設立された非営利団体が運営する、世界最大のデジタルアーカイブです。「すべての知識への普遍的なアクセス」をミッションに掲げ、ウェブページ、書籍、音声、映像、ソフトウェアなど、数百億件を超えるデジタル資料を無料で公開しています。 デジタル・ヒューマニティーズ(DH)の研究者にとって、Internet Archiveは一次資料へのアクセス、ウェブの歴史的変遷の分析、大規模なテキストコーパスの構築など、多様な研究活動を支える重要な基盤です。 Wayback Machine Internet Archiveの代表的なサービスであるWayback Machineは、1996年以降のウェブページのスナップショットを保存しており、現在8,000億ページ以上のアーカイブを保持しています。 主な機能 URL検索:特定のURLの過去のスナップショットを時系列で閲覧 カレンダービュー:年月日を指定して、その時点でのウェブページを表示 Save Page Now:任意のウェブページを即座にアーカイブに保存 CDX API:プログラムからアーカイブデータにアクセスするためのAPI DH研究では、ウェブサイトの変遷を追跡したり、消失したウェブコンテンツを復元したりする際にWayback Machineが活用されます。例えば、デジタルメディア研究やウェブ考古学の分野で重要なツールとなっています。 Open Library Open Libraryは、Internet Archiveが運営するオープンな図書カタログプロジェクトです。2,000万件以上の書誌レコードを保持し、そのうち数百万冊はオンラインで全文を閲覧できます。 特徴 Controlled Digital Lending(CDL):デジタル化された書籍を図書館のように貸出管理 全文検索:デジタル化された書籍の本文を横断的に検索 API:書誌データをJSON形式で取得可能 Open Libraryのカバー画像API:ISBNから書籍のカバー画像を取得 人文学研究において、著作権の切れた歴史的文献や学術書にアクセスする際に有用です。 コレクションとメディアアーカイブ Internet Archiveは書籍以外にも、多様なメディアコレクションを提供しています。 主なコレクション コレクション 内容 規模 Audio Archive 音楽、ポッドキャスト、ラジオ番組 1,500万件以上 Moving Image Archive 映画、テレビ番組、ニュース映像 700万件以上 Software Archive 歴史的なソフトウェア、ゲーム 80万件以上 Image Archive 写真、イラスト、地図 400万件以上 これらのコレクションは、メディア研究、文化史、デジタルアート研究などのDHプロジェクトで幅広く利用されています。 APIとプログラムによるアクセス Internet Archiveは、研究者向けにさまざまなAPIを提供しています。 主なAPI # Internet Archive Python ライブラリの使用例 import internetarchive # アイテムのメタデータを取得 item = internetarchive.get_item('example_item_id') print(item.metadata) # 検索 results = internetarchive.search_items('subject:japanese AND mediatype:texts') for result in results: print(result['identifier']) Search API:メタデータによるアイテム検索 Metadata API:個別アイテムの詳細メタデータ取得 Wayback CDX API:ウェブアーカイブのインデックス検索 S3-like API:アイテムのアップロード・ダウンロード Pythonライブラリ internetarchive を使えば、大規模なデータ収集や分析を効率的に行うことができます。 ...