Wayback Machine

Internet Archive：世界最大のデジタルアーカイブを活用する

はじめに Internet Archive（インターネット・アーカイブ）は、1996年にBrewster Kahle（ブリュースター・ケール）によって設立された非営利団体が運営する、世界最大のデジタルアーカイブです。「すべての知識への普遍的なアクセス」をミッションに掲げ、ウェブページ、書籍、音声、映像、ソフトウェアなど、数百億件を超えるデジタル資料を無料で公開しています。デジタル・ヒューマニティーズ（DH）の研究者にとって、Internet Archiveは一次資料へのアクセス、ウェブの歴史的変遷の分析、大規模なテキストコーパスの構築など、多様な研究活動を支える重要な基盤です。 Wayback Machine Internet Archiveの代表的なサービスであるWayback Machineは、1996年以降のウェブページのスナップショットを保存しており、現在8,000億ページ以上のアーカイブを保持しています。主な機能 URL検索：特定のURLの過去のスナップショットを時系列で閲覧カレンダービュー：年月日を指定して、その時点でのウェブページを表示 Save Page Now：任意のウェブページを即座にアーカイブに保存 CDX API：プログラムからアーカイブデータにアクセスするためのAPI DH研究では、ウェブサイトの変遷を追跡したり、消失したウェブコンテンツを復元したりする際にWayback Machineが活用されます。例えば、デジタルメディア研究やウェブ考古学の分野で重要なツールとなっています。 Open Library Open Libraryは、Internet Archiveが運営するオープンな図書カタログプロジェクトです。2,000万件以上の書誌レコードを保持し、そのうち数百万冊はオンラインで全文を閲覧できます。特徴 Controlled Digital Lending（CDL）：デジタル化された書籍を図書館のように貸出管理全文検索：デジタル化された書籍の本文を横断的に検索 API：書誌データをJSON形式で取得可能 Open Libraryのカバー画像API：ISBNから書籍のカバー画像を取得人文学研究において、著作権の切れた歴史的文献や学術書にアクセスする際に有用です。コレクションとメディアアーカイブ Internet Archiveは書籍以外にも、多様なメディアコレクションを提供しています。主なコレクションコレクション内容規模 Audio Archive 音楽、ポッドキャスト、ラジオ番組 1,500万件以上 Moving Image Archive 映画、テレビ番組、ニュース映像 700万件以上 Software Archive 歴史的なソフトウェア、ゲーム 80万件以上 Image Archive 写真、イラスト、地図 400万件以上これらのコレクションは、メディア研究、文化史、デジタルアート研究などのDHプロジェクトで幅広く利用されています。 APIとプログラムによるアクセス Internet Archiveは、研究者向けにさまざまなAPIを提供しています。主なAPI # Internet Archive Python ライブラリの使用例 import internetarchive # アイテムのメタデータを取得 item = internetarchive.get_item('example_item_id') print(item.metadata) # 検索 results = internetarchive.search_items('subject:japanese AND mediatype:texts') for result in results: print(result['identifier']) Search API：メタデータによるアイテム検索 Metadata API：個別アイテムの詳細メタデータ取得 Wayback CDX API：ウェブアーカイブのインデックス検索 S3-like API：アイテムのアップロード・ダウンロード Pythonライブラリ internetarchive を使えば、大規模なデータ収集や分析を効率的に行うことができます。 ...

2026年3月15日 · 1 分 · Nakamura