はじめに
Internet Archive(インターネット・アーカイブ)は、1996年にBrewster Kahle(ブリュースター・ケール)によって設立された非営利団体が運営する、世界最大のデジタルアーカイブです。「すべての知識への普遍的なアクセス」をミッションに掲げ、ウェブページ、書籍、音声、映像、ソフトウェアなど、数百億件を超えるデジタル資料を無料で公開しています。
デジタル・ヒューマニティーズ(DH)の研究者にとって、Internet Archiveは一次資料へのアクセス、ウェブの歴史的変遷の分析、大規模なテキストコーパスの構築など、多様な研究活動を支える重要な基盤です。
Wayback Machine
Internet Archiveの代表的なサービスであるWayback Machineは、1996年以降のウェブページのスナップショットを保存しており、現在8,000億ページ以上のアーカイブを保持しています。
主な機能
- URL検索:特定のURLの過去のスナップショットを時系列で閲覧
- カレンダービュー:年月日を指定して、その時点でのウェブページを表示
- Save Page Now:任意のウェブページを即座にアーカイブに保存
- CDX API:プログラムからアーカイブデータにアクセスするためのAPI
DH研究では、ウェブサイトの変遷を追跡したり、消失したウェブコンテンツを復元したりする際にWayback Machineが活用されます。例えば、デジタルメディア研究やウェブ考古学の分野で重要なツールとなっています。
Open Library
Open Libraryは、Internet Archiveが運営するオープンな図書カタログプロジェクトです。2,000万件以上の書誌レコードを保持し、そのうち数百万冊はオンラインで全文を閲覧できます。
特徴
- Controlled Digital Lending(CDL):デジタル化された書籍を図書館のように貸出管理
- 全文検索:デジタル化された書籍の本文を横断的に検索
- API:書誌データをJSON形式で取得可能
- Open Libraryのカバー画像API:ISBNから書籍のカバー画像を取得
人文学研究において、著作権の切れた歴史的文献や学術書にアクセスする際に有用です。
コレクションとメディアアーカイブ
Internet Archiveは書籍以外にも、多様なメディアコレクションを提供しています。
主なコレクション
| コレクション | 内容 | 規模 |
|---|---|---|
| Audio Archive | 音楽、ポッドキャスト、ラジオ番組 | 1,500万件以上 |
| Moving Image Archive | 映画、テレビ番組、ニュース映像 | 700万件以上 |
| Software Archive | 歴史的なソフトウェア、ゲーム | 80万件以上 |
| Image Archive | 写真、イラスト、地図 | 400万件以上 |
これらのコレクションは、メディア研究、文化史、デジタルアート研究などのDHプロジェクトで幅広く利用されています。
APIとプログラムによるアクセス
Internet Archiveは、研究者向けにさまざまなAPIを提供しています。
主なAPI
# Internet Archive Python ライブラリの使用例
import internetarchive
# アイテムのメタデータを取得
item = internetarchive.get_item('example_item_id')
print(item.metadata)
# 検索
results = internetarchive.search_items('subject:japanese AND mediatype:texts')
for result in results:
print(result['identifier'])
- Search API:メタデータによるアイテム検索
- Metadata API:個別アイテムの詳細メタデータ取得
- Wayback CDX API:ウェブアーカイブのインデックス検索
- S3-like API:アイテムのアップロード・ダウンロード
Pythonライブラリ internetarchive を使えば、大規模なデータ収集や分析を効率的に行うことができます。
DHにおける活用事例
1. ウェブ歴史学
Wayback Machineを用いて、特定のウェブサイトやオンラインコミュニティの変遷を分析する研究が行われています。政治キャンペーンサイトの変化やニュースサイトの報道傾向の推移など、デジタル時代の歴史研究に不可欠なツールです。
2. テキストマイニング
デジタル化された書籍コレクションを用いた大規模テキスト分析が可能です。特に、著作権の切れたパブリックドメインの文献は自由にダウンロードして分析できます。
3. メディア研究
映像・音声アーカイブを活用した文化研究やメディア分析にも利用されています。
まとめ
Internet Archiveは、そのスケールと多様性において、DH研究に欠かせない基盤です。Wayback Machineによるウェブアーカイブ、Open Libraryによる書籍アクセス、豊富なAPIによるプログラマティックなデータ活用など、さまざまな研究ニーズに対応しています。
すべてのコンテンツに無料でアクセスできることは、オープンアクセスの理念を体現しており、研究の民主化にも大きく貢献しています。DH研究を始める際には、まずInternet Archiveの豊富なリソースを探索してみることをお勧めします。