概要

NDL古典籍OCR-Liteを用いて、IIIFマニフェストファイルからTEI/XMLファイルを作成するGradioアプリの紹介です。

以下のURLからアクセスできます。

https://nakamura196-ndlkotenocr-lite-iiif.hf.space/

背景

以下の記事の続きです。

/ja/posts/7cbfea6c542774/

/ja/posts/bd58ba02f9e721/

これまでは、2つのアプリを使用する必要がありましたが、今回の改修により、単独のGradioアプリで変換作業が完結するようにしました。

また画像のコマ数が多いマニフェストファイルを処理する場合、進捗がわかりにくいことや、処理結果をコピーできない、といった不具合があったので、これらを修正しています。

画面の例

以下のように、「ページ 111/129 を処理中... - 79.7%」といった進捗を表示するように修正しました。

実装にあたっては、Progressを使用しています。

https://www.gradio.app/docs/gradio/progress

またOCR完了後は、TEI/XMLファイルをダウンロードするためのリンクが表示されるようにしました。

まとめ

Hugging Faceの無料で利用可能なCPUの制約上、OCRに時間がかかることがありますが、参考になりましたら幸いです。


動画版(生成AIによる自動生成): この記事の内容をずんだもん×四国めたんの掛け合いで解説しています。自動生成のため、内容に誤りがある可能性があります。正確な情報は記事本文をご参照ください。