デジタル人文学(DH)関連の新規ツール開発・公開情報を週次でまとめています。

NDLOCR-Lite のWeb版が公開

国立国会図書館が公開したAI-OCRツール「NDLOCR-Lite」のWebブラウザ版「NDLOCR-Lite Web」が公開されました。ブラウザ上で手軽に画像やPDFのOCR処理を試すことができ、処理はローカルで完結するため画像や認識テキストが外部に送信されることはないとのことです。

WebWorkerを使用した並列処理(最大8スレッド)により、1枚あたり数秒で認識処理が完了し、100ページ程度の文庫本であれば数分で処理が可能とのことです。AndroidのChromeでは動作が確認されているようですが、iPhoneでは動作しないようです。

公開後に読み順推定アルゴリズムの不具合が発見され、横書きテキストで認識結果の並びが正しくない問題があることが報告されています。


本記事はAIにより自動生成されています。内容に抜け漏れや不正確な記述が含まれる可能性があります。情報源は X投稿・GitHub更新・カレントアウェアネス・ポータルです。