DROIDで見つける隠れたファイル形式の問題:デジタル保存の必須ツール
デジタルアーカイブや長期保存を担当している方なら、「このファイル、本当に拡張子通りの形式なのか?」と疑問に思ったことがあるはずです。今回は、そんな疑問を解決してくれる強力なツール「DROID」について、実際の分析結果を交えながら紹介します。 DROIDとは? DROID(Digital Record Object Identification)は、英国国立公文書館(The National Archives)が開発したファイル形式識別ツールです。ファイルの拡張子だけでなく、ファイルの内部構造(シグネチャ)を分析 して、真の形式を特定します。 DROIDの主な機能 バイナリシグネチャによる識別 :ファイルの内容を直接分析 PRONOMレジストリとの連携 :15,000以上のファイル形式データベースを活用 一括処理 :フォルダ単位での大量ファイル分析 拡張子ミスマッチの検出 :拡張子と実際の形式の不一致を発見 CSV出力 :分析結果をデータとして活用可能 なぜDROIDが必要なのか? デジタルファイルには、以下のような問題がよくあります: 意図的な拡張子変更 :ファイル形式を隠すため 誤った拡張子の付与 :人為的ミスやシステムエラー 形式変換時の拡張子未更新 :変換後に拡張子が古いまま 拡張子のない/不明なファイル :古いシステムからの移行時など これらの問題は、長期保存計画や移行戦略に深刻な影響 を与える可能性があります。 実例で見るDROIDの威力 実際にDROIDで分析したデジタル保存ワークショップのサンプルファイルから、興味深い問題が複数見つかりました。 🚨 発見された主な問題 1. 音声ファイルが画像ファイルを装っている ファイル名: 412016__skymary__cat-purring-and-meow.tif 拡張子: .tif(TIFF画像形式を示唆) 実際の形式: Waveform Audio (PCMWAVEFORMAT) PUID: fmt/141 MIME Type: audio/x-wav 状態: EXTENSION_MISMATCH = true 問題点 :画像として扱われる可能性があり、適切な音声再生ツールでアクセスできない恐れがあります。 2. 新形式なのに古い拡張子 ファイル名: AusPreserves-CodeofConduct_20181115.doc 拡張子: .doc(Word 97-2003形式を示唆) 実際の形式: Microsoft Word for Windows 2007 onwards (.docx) PUID: fmt/412 MIME Type: application/vnd.openxmlformats-officedocument.wordprocessingml.document 状態: EXTENSION_MISMATCH = true 問題点 :古いWordバージョンでは開けない可能性があり、互換性の問題が発生します。 ...
