warc | デジタルアーカイブシステムの技術ブログ

Yahoo News記事のローカル保存手段の比較（SingleFile・Playwright・ArchiveBox・WARC・yt-dlp）

Yahoo Newsの記事は一定期間で削除されることがあります。個人的な記録としてローカルに保存しておきたい場合、いくつかの手段があります。ここでは、以下の5つの方法を同一の記事に対して実行し、結果を比較しました。 SingleFile CLI — 単一HTMLファイルとして保存 Playwright PDF — ページをPDF化 ArchiveBox — 複数形式を一括保存（WARC含む） WARC — 標準的なウェブアーカイブ形式 yt-dlp — 記事内の動画をダウンロード比較結果手段形式フォルダサイズ広告動画 SingleFile CLI 単一HTML 1.3MB 含まれる × Playwright PDF PDF 2.5MB 含まれにくい × ArchiveBox 複数形式一括 43MB 含まれる △ yt-dlp MP4 27MB - ○ ArchiveBoxの43MBにはSingleFile・PDF・WARC・本文抽出などが全て含まれています。全手段を併用した場合、1記事あたり約74MBのストレージを消費します。 SingleFile CLI SingleFile は、Webページを画像・CSS込みの単一HTMLファイルとして保存するツールです。 Chrome拡張版が有名ですが、CLI版もあります。インストールと実行 npm install -g single-file-cli single-file 'https://news.yahoo.co.jp/articles/xxxxx' output.html 不要な要素の除去 --removed-elements-selector オプションで特定の要素を除去することもできます。 single-file 'https://news.yahoo.co.jp/articles/xxxxx' output.html \ --removed-elements-selector='header, footer, nav, aside, [id^="yads_"]' ただし、CSSセレクタの指定によっては記事の構成要素（配信元情報、更新日時など）まで意図せず削除してしまう可能性があるため、除去する場合は保存結果を確認する必要があります。 ...

2026年3月20日 · 2 分 · Nakamura

ReplayWeb.page：ブラウザで動作するWebアーカイブ再生ツール

はじめにデジタルヒューマニティーズにおいて、Webコンテンツの保存と再現は重要な課題です。Webサイトは日々更新・消滅しており、研究対象としてのWebページを長期的に保存する仕組みが必要です。 ReplayWeb.page は、Webrecorderプロジェクトが開発したブラウザベースのWebアーカイブ再生ツールです。WARC（Web ARChive）やWACZ（Web Archive Collection Zipped）形式のアーカイブファイルを、ブラウザ上でそのまま閲覧できます。 ReplayWeb.pageの主な特徴クライアントサイド処理最大の特徴は、Service Workerを活用したクライアントサイド処理です。従来のWebアーカイブ再生ツール（Wayback Machineなど）はサーバーサイドでの処理が必要でしたが、ReplayWeb.pageではブラウザ内ですべての処理が完結します。これにより、サーバーの構築・運用が不要になります。 WARC/WACZ形式のサポート国際標準であるWARC形式と、Webrecorderが提案するWACZ形式の両方に対応しています。WACZ形式はWARCファイルをZIP圧縮し、インデックスやメタデータを含めたパッケージ形式で、効率的なランダムアクセスが可能です。多様なデータソースからの読み込みローカルファイル、URL、Google Drive、Dropbox、S3など、さまざまなソースからアーカイブファイルを読み込めます。HTTPレンジリクエストに対応しているため、大きなアーカイブファイルでも全体をダウンロードせずに部分的にアクセスできます。埋め込み対応 <replay-web-page> カスタムエレメントを使って、任意のWebページにアーカイブの再生ウィジェットを埋め込めます。研究成果の公開やデジタル展示に活用できます。 DH研究での活用例 Webサイトの長期保存研究対象のWebサイトをWARC/WACZ形式で保存し、将来にわたって参照可能な状態を維持できます。リンク切れや改変を心配することなく、特定時点のWebコンテンツを正確に再現できます。デジタル展示の構築博物館や図書館のデジタル展示において、過去のWebサイトをそのまま再現する展示を構築できます。ReplayWeb.pageの埋め込み機能を使えば、展示用Webサイト内にアーカイブされたコンテンツをシームレスに組み込めます。ソーシャルメディアの保存ソーシャルメディア上の投稿やスレッドなど、消滅しやすいコンテンツを保存・再現するのに適しています。Webrecorderのキャプチャツール（ArchiveWeb.page）と組み合わせることで、キャプチャから再生までの一連のワークフローを構築できます。基本的な使い方アーカイブの準備: ArchiveWeb.pageやwget、Browsertrixなどでページをキャプチャし、WARC/WACZファイルを作成します ReplayWeb.pageにアクセス: replayweb.page をブラウザで開きますファイルの読み込み: ローカルファイルを選択するか、URLを指定してアーカイブを読み込みますブラウジング: 保存されたWebページをオリジナルと同様にブラウジングできます関連ツール Webrecorderプロジェクトは、ReplayWeb.page以外にも以下のツールを提供しています。 ArchiveWeb.page: ブラウザ拡張機能でWebページをキャプチャ Browsertrix: 大規模なWebクローリングとアーカイブの自動化 py-wacz: PythonでWACZファイルを操作するライブラリ技術的な仕組み ReplayWeb.pageはService Workerを使って、アーカイブされたHTTPレスポンスをインターセプトし、ブラウザに提供します。ユーザーがアーカイブ内のURLにアクセスすると、Service WorkerがWARC/WACZファイルから該当するレスポンスを取得し、元のサーバーにリクエストを送ることなく、保存されたコンテンツを返します。この仕組みにより、JavaScriptやCSSを含む動的なWebページも、保存時の状態のまま正確に再現できます。まとめ ReplayWeb.pageは、Webアーカイブの再生をブラウザだけで完結させる革新的なツールです。サーバー不要で動作する手軽さと、標準的なWARC/WACZ形式への対応により、DH研究におけるWebコンテンツの保存・再現・共有の課題を解決します。デジタル保存に関心のある研究者にとって、必須のツールといえるでしょう。参考リンク ReplayWeb.page Webrecorder プロジェクト WACZ 仕様

2026年3月15日 · 1 分 · Nakamura