以前、Hugging Face SpacesとYOLOv5モデル(NDL-DocLデータセットで学習済み)を使った推論アプリの構築を行いました。
今回は上記のアプリを一部変更して、以下の差分に示すように、JSON出力を追加しました。
これにより、以下のノートブックのように、返却結果を利用した処理が可能になりました。
https://github.com/nakamura196/ndl_ocr/blob/main/GradioのAPIを用いた物体検出例.ipynb

他により良い方法があるかと思いますが、参考になりましたら幸いです。
動画版(生成AIによる自動生成): この記事の内容をずんだもん×四国めたんの掛け合いで解説しています。自動生成のため、内容に誤りがある可能性があります。正確な情報は記事本文をご参照ください。


