Yahoo News記事のローカル保存手段の比較(SingleFile・Playwright・ArchiveBox・WARC・yt-dlp)
Yahoo Newsの記事は一定期間で削除されることがあります。個人的な記録としてローカルに保存しておきたい場合、いくつかの手段があります。 ここでは、以下の5つの方法を同一の記事に対して実行し、結果を比較しました。 SingleFile CLI — 単一HTMLファイルとして保存 Playwright PDF — ページをPDF化 ArchiveBox — 複数形式を一括保存(WARC含む) WARC — 標準的なウェブアーカイブ形式 yt-dlp — 記事内の動画をダウンロード 比較結果 手段 形式 フォルダサイズ 広告 動画 SingleFile CLI 単一HTML 1.3MB 含まれる × Playwright PDF PDF 2.5MB 含まれにくい × ArchiveBox 複数形式一括 43MB 含まれる △ yt-dlp MP4 27MB - ○ ArchiveBoxの43MBにはSingleFile・PDF・WARC・本文抽出などが全て含まれています。全手段を併用した場合、1記事あたり約74MBのストレージを消費します。 SingleFile CLI SingleFile は、Webページを画像・CSS込みの単一HTMLファイルとして保存するツールです。 Chrome拡張版が有名ですが、CLI版もあります。 インストールと実行 npm install -g single-file-cli single-file 'https://news.yahoo.co.jp/articles/xxxxx' output.html 不要な要素の除去 --removed-elements-selector オプションで特定の要素を除去することもできます。 single-file 'https://news.yahoo.co.jp/articles/xxxxx' output.html \ --removed-elements-selector='header, footer, nav, aside, [id^="yads_"]' ただし、CSSセレクタの指定によっては記事の構成要素(配信元情報、更新日時など)まで意図せず削除してしまう可能性があるため、除去する場合は保存結果を確認する必要があります。 ...
