Google Colab

Google Colabを用いたNDLOCRアプリのVersion 2を作成しました。

お知らせノートブックのURL https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_ocr_v2.ipynb 2022-07-06 使い方のデモ動画を作成しました。 https://youtu.be/46p7ZZSul0o またルビのテキスト化機能が追加されました。概要 Google Colabを用いたNDLOCRアプリを作成し、以下の記事で紹介しました。今回は、上記ノートブックの改良版であるVersion 2を作成しましたので紹介します。以下からノートブックにアクセスいただけます。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_ocr_v2.ipynb 特徴複数の入力形式に対応しました。以下のオプションを使用できます。画像単一の画像ファイルのURLを指定する場合単一の画像ファイルをアップロードする場合複数の既にダウンロード済みの画像ファイルを対象にする場合（Sigle input dir mode）複数の既にダウンロード済みの画像ファイルを対象にする場合（Image file mode: 単体の画像ファイルを入力として与える場合） PDF 単一のPDFファイルのURLを指定する場合単一のPDFファイルをアップロードする場合単一の既にダウンロード済みのPDFファイルを対象にする場合複数の既にダウンロード済みのPDFファイルを格納したフォルダを指定する場合 IIIF IIIFマニフェストファイルのURLを指定する場合（本記事執筆時点ではPresentation API v2のみ） PDFファイルやIIIFマニフェストファイルの入力をサポートします。また、Version 1では事前にGoogle Driveに画像ファイルをアップロードする必要がありましたが、Version 2では画像ファイルのURLの指定や、アップロードフォームによる登録機能を提供しています。さらに、上記のいくつかのオプションにおいて、実行後に推論結果をマージしたテキストファイルをダウンロードする機能を提供します。ダウンロードしたテキストファイルをVoyantツールなどの他のアプリケーションに使用することができます。（なお本格的な分析にあたっては、認識結果の修正やトークナイズの方法など、各種調整が必要です。）使用方法 1.初期セットアップ以下に示す2つの実行ボタンを押してください。Googleドライブのアクセス許可が求められるので、許可してください。 2.設定上述したオプションから、目的に応じたものを選択してください。各オプションに付与されたリンクをクリックすると、当該オプションの設定画面に遷移します。実行後実行後は、以下のように、出力フォルダが表示されます。設定において選択したprocessの値が「@（アットマーク）」とともにフォルダ名に付与されます。また既に出力フォルダが存在する場合には、フォルダ名の末尾に実行時間に基づくIDが「_（アンダーバー）」とともに付与されます。また単一のファイルを処理するオプションを選択した場合、実行後、以下のようにテキストファイルがダウンロードされます。まとめ NDLOCRアプリの利用にあたって、参考になりましたら幸いです。

2022年5月2日 · 更新: 2022年5月2日 · 1 分 · Nakamura

Google Colabを用いたNDLOCRアプリの更新：Sigle input dir modeの追加

概要先日以下の記事およびノートブックを作成しました。上記の記事執筆時点では、以下の入力形式にのみ対応していました。 Image file mode（-s fで指定） (単体の画像ファイルを入力として与える場合はこちら) ただ、以下の記事での検証により、複数の画像に対して上記のオプションを適用することは、オーバーヘッドが大きいことがわかりました。そこで、以下の入力形式にも対応できるようにノートブックを修正しました。 Sigle input dir mode（-s sで指定）※デフォルト以下、上記入力オプションの使い方について説明します。使い方「2.設定」の「input_structure」において、「s」を選択してください。従来の「Image file mode」を使用する場合には、「f」を選択してください。「input_structure」で「s」を選んだ場合、「extensions」の項目は無視されます。また、入力フォルダの作成方法に注意点があります。以下の入力フォルダのパスを指定する場合を例とします。 /content/drive/MyDrive/ndl_ocr/input/ この時、以下のように、「input」フォルダの下に「img」フォルダを作成し、その下に画像を格納します。上記の準備および設定を行なった上で実行を行うと、「Sigle input dir mode」によりOCR処理を実行することができます。まとめ今回作成したノートブックについて、「f（Image file mode）」を選択した場合、指定した入力フォルダ内の階層構造を特に意識せずに実行することができます。ただしこのモードでは画像ファイル毎にプログラムを実行するため、一部オーバーヘッドが生じます。大量の画像ファイルを対象に実行する場合には、「s（Sigle input dir mode）」を選択することをお勧めします。誤った理解をしている点があるかもしれませんが、参考になりましたら幸いです。

2022年4月29日 · 更新: 2022年4月29日 · 1 分 · Nakamura

Google Colabを用いたNDLOCRの実行にかかる時間について

先日、以下の記事を執筆しました。今回は、Google Colabを用いたNDLOCRの実行にかかる時間について、かんたんな調査を行なったので、その結果をまとめます。設定 GPUは以下です。 Fri Apr 29 06:26:29 2022 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... Off | 00000000:00:04.0 Off | 0 | | N/A 35C P0 23W / 300W | 0MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+ 以下の画像を用いました。サイズは5000 x 3415 px で、 1.1 MB でした。 ...

2022年4月29日 · 更新: 2022年4月29日 · 2 分 · Nakamura

Google Colabを用いたジャパンサーチRDFストアに対するSPARQLの実行例

Google Colabを用いたジャパンサーチRDFストアに対するSPARQLの実行例を示すノートブックを作成しました。Pythonを用いたRDFストア利用時の参考になりましたら幸いです。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ジャパンサーチのRDFストアを対象したSPARQLチュートリアル.ipynb 他にも以下のような参考サイト・チュートリアルがあります。 https://www.kanzaki.com/works/ld/jpsearch/ https://lab.ndl.go.jp/data_set/tutorial/

2022年4月29日 · 更新: 2022年4月29日 · 1 分 · Nakamura

Google Colabを用いたndl-lab図表自動抽出プログラムの実行

概要 ndl-labでは、以下の図表自動抽出プログラムが公開されています。 https://github.com/ndl-lab/tensorflow-deeplab-v3-plus 今回は上記のプログラムについて、Google Driveを用いた画像の入力と結果の保存までの手続きを含むGoogle Colabの使用方法をまとめましたので紹介します。ノートブック今回作成したGoogle Colabのノートブックには以下からアクセスいただけます。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_deeplab.ipynb Googleドライブ上に入力画像のフォルダを用意することで、図表の自動抽出処理を実行することができます。基本的な操作方法は、上記のノートブック内の説明をご確認ください。以下、実行例を紹介します。本ノートブックでは、（1）入力フォルダを準備する方法と、（2）IIIFマニフェストファイルのURLを入力する方法の2つがあります。それぞれについて説明します。実行方法：（１）入力フォルダの準備入力フォルダの準備まず、Google Drive上に画像ファイルを格納したフォルダを作成します。今回は、以下のように、マイドライブに「ndl_deeplab > input」というフォルダを作成して、その直下に画像ファイルを格納しました。ノートブックの実行：1.初期セットアップ先に示した以下のノートブックにアクセスしてください。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_deeplab.ipynb そして、用意されている2つの再生ボタンを押してください。少し時間がかかりますが、必要なライブラリ等をインストールします。また、本作業については、ノートブック立ち上げ後の初回のみ実行します。ノートブックの実行：2.設定次に、処理の適用対象を設定します。以下のように、input_dirに先に用意したフォルダへのパスを指定します。またmanifestの値を空にしてください。これにより、input_dirに格納した画像ファイルを対象に処理を実行します。再生ボタンを押して、設定は完了です。ノートブックの実行：3.実行「3.実行」の再生ボタンを押してください。完了後は、以下のように、指定した出力フォルダに処理の開始時間に基づくフォルダが作成され、その中に認識結果が保存されます。図表の抽出に失敗してしまう場合もありますが、今回は以下のように、正しく図表を抽出することができました。実行方法：（2）IIIFマニフェストファイルのURLを入力するノートブックの実行：1.初期セットアップこれは先ほどのプロセスと同じです。2回目以降はスキップしてください。ノートブックの実行：2.設定以下のように、manifestに処理対象とするIIIFマニフェストファイルのURLを入力してください。またprocess_sizeに処理対象のcanvas数を指定します。-1を入力すると、マニフェストファイルに含まれるすべてのcanvas（画像）に対して処理を実行します。再生ボタンを押して、設定は完了です。ノートブックの実行：3.実行「3.実行」の再生ボタンを押してください。今回の場合、以下のように、まず画像のダウンロードが行われます。 ### マニフェストが指定されている場合は、画像のダウンロード ### 80%|████████ | 4/5 [00:13<00:03, 3.41s/it] その後、抽出処理が始まります。処理対象の画像が多い場合、完了まで時間がかかります。抽出処理の完了後、「実行方法：（１）入力フォルダの準備」で示した通り、指定したGoogleドライブ上の出力フォルダに認識結果が保存されるほか、以下のように、認識結果をIIIFマニフェストファイルの形で出力し、それをMiradorビューアで閲覧するためのURLが表示されます。 ### マニフェストが指定されている場合は、認識結果をマニフェストファイルに出力 ### /content/drive/MyDrive/ndl_deeplab/output/20220429095851/manifest.json にマニフェストファイルを保存しました。また以下のリンクから、認識結果を確認できます。 https://localhost:8000/ 上記のリンクをクリックすると、以下のように、Miradorを用いて認識結果を確認することができます。まとめ今回は、NDLラボが公開する図表自動抽出プログラムについて、Google Colabを用いた実行方法の一例を示しました。他の方の参考になりましたら幸いです。このようなアプリケーションを公開してくださったNDLの関係者の方々に深く感謝いたします。

2022年4月29日 · 更新: 2022年4月29日 · 1 分 · Nakamura

Google Colabを用いたNDLOCRアプリの実行（Google Driveを用いた画像の入力と結果の保存）

概要前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/1519294332159012864 上記のノートブックを使用することにより、簡単に（「ランタイム」>「すべてのセルを実行」からワンクリックで）、かつ無料でOCRを実行することができます。今回は、このノートブックを参考にして、Google Driveを用いた画像の入力と結果の保存までの手続きを含むGoogle Colabの使用方法をまとめましたので紹介します。ノートブック今回作成したGoogle Colabのノートブックには以下からアクセスいただけます。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_ocr_folder.ipynb Googleドライブ上に入力画像のフォルダを用意するだけで、OCR処理を実行することができます。基本的な操作方法は、上記のノートブック内の説明をご確認ください。以下、実行例を紹介します。実行方法入力フォルダの準備まず、Google Drive上に画像ファイルを格納したフォルダを作成します。今回は、以下のように、マイドライブに「ndl_ocr > input」というフォルダを作成して、その直下に画像ファイル「image_1.jpg」とフォルダ「dir_1」を作成し、フォルダ「dir1」の中に画像ファイル「image_2.jpeg」を格納しました。ツリーで見ると、以下のような形です。今回作成したプログラムでは、指定した入力フォルダに含まれる画像を再帰的に探索します。ノートブックの実行：1.初期セットアップ先に示した以下のノートブックにアクセスしてください。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_ocr_folder.ipynb そして、以下に示す再生ボタンを押してください。少し時間がかかりますが、必要なライブラリ等をインストールします。また、本作業については、ノートブック立ち上げ後の初回のみ実行します。再生ボタンを押した後、「このノートブックに Google ドライブのファイルへのアクセスを許可しますか？」と聞かれるので、「Google ドライブに接続」を押して、許可してください。その後、しばらくの間、再生中のボタンが表示されます。これが完了したら、次のステップに進みます。ノートブックの実行：2.設定次に、OCR処理の適用対象を設定します。入力フォルダ（input_dir）は、上述した「/content/drive/MyDrive/ndl_ocr/input/」としました。出力フォルダ（output_dir）は、「/content/drive/MyDrive/ndl_ocr/output/」としました。このフォルダは事前に作成しておかなくてもかまいません。拡張子（extensions）は、今回は拡張子がjpgとjpegの画像を格納したので、これら二つを設定します。 processは、以下を参考にしてください。 https://github.com/ndl-lab/ndlocr_cli#推論処理の実行ノートブックの実行：3.実行「3.実行」の再生ボタンを押してください。再生ボタンを押した後、以下のように、再生中ボタンが表示されます。完了後は、以下のように、指定した出力フォルダに認識結果が保存されます。入力フォルダの構造を維持する形で出力するようにしています。また、設定において選択したprocessの値をフォルダ名に付与しています。processの値を変えて実行した際、それぞれの出力フォルダが残るようにしています。以下のように、Googleドライブ上で認識結果の保存と確認が可能です。まとめ上記の方法により、Googleドライブ上に格納した画像に対するOCR処理と、その結果の保存を無料で行うことができます。保存した結果を、さまざまな用途に活用することができます。 Google Colabを利用した実行方法を示してくださった @blue0620 さんに感謝いたします。追記 2022.05.02 本ノートブックの改良版であるVersion 2を作成しました。以下の記事も参考にしてください。 ...

2022年4月28日 · 更新: 2022年4月28日 · 1 分 · Nakamura

The New York Public LibraryのAPIを使ってみる

概要 The New York Public Libraryでは、Digital Collections APIを提供しています。 http://api.repo.nypl.org/ 本記事では、このAPIの使い方の一例について説明します。サインアップまず以下のリンクをクリックして、サインアップを行います。以下のようなフォームが表示されますので、必要な情報を入力します。入力後、 Welcome to NYPL API という件名のメールが届きます。このメールの中に、 Authentication Token が記載されています。メタデータの抽出 The New York Public Library Digital Collections APIではさまざまなendpointが提供されています。今回は以下のendpointを利用して、各アイテムのメタデータを抽出してみます。 http://api.repo.nypl.org/api/v1/items/item_details/[:id] 具体的には、以下のアイテムを例としてます。 https://digitalcollections.nypl.org/items/510d47e1-d3b0-a3d9-e040-e00a18064a99 そして、以下に示したメタデータの抽出を試みます。以下のGoogle Colabにメタデータの抽出サンプルプログラムを作成しました。参考になりましたら幸いです。 https://colab.research.google.com/drive/1sO9plTqraPwdBF61sArlD6k6pZRpfJL8?usp=sharing 上記プログラムを実行すると、例えば以下のようなメタデータが得られます。 { "title": "Genji monogatari: Sakaki no maki|The Tale of Genji", "collection": " > Genji monogatari : Sakaki no maki", "dateIssued": "1650 (start)|1700 (end)", "place": "Kyoto", "identifier": "Hades Collection Guide ID (legacy): 443|Hades struc ID (legacy): 747877|Universal Unique Identifier (UUID): ce4bcd90-c60d-012f-9d19-58d385a7bc34" } まとめ APIを利用したデータ活用の参考になりましたら幸いです。 ...

2022年4月23日 · 更新: 2022年4月23日 · 1 分 · Nakamura

pyvipsの使い方とPyramid Tiled Tiffファイルの作り方

概要 pyvipsを用いてPyramid Tiled Tiffファイルを作成するプログラムを作成しました。以下のGoogle Colabでお試しいただけます。 https://colab.research.google.com/drive/1VO1PgKgS3H21zXpg4g2inN-mtIrON5TQ?usp=sharing IIIFを用いた画像配信において、Pyramid Tiled Tiffファイルを作成する場面がありますが、PythonおよびVipsを用いた画像変換を行う際の参考になりましたら幸いです。なお、パラメータ等は以下を参考にしています。 https://github.com/samvera-labs/serverless-iiif#using-vips また、変換したPyramid Tiled Tiffファイルを配信する方法の一例として、以下の記事も参考になりましたら幸いです。ポイント vipsのインストール pyvipsを使用するのは、vipsを事前にインストールしておく必要があります。以下が参考になります。 https://www.libvips.org/install.html pyvipsを用いたPyramid Tiled Tiffファイルの作成以下のように使用します。 import pyvips ins = pyvips.Image.new_from_file(<入力画像ファイルのパス>) ins.tiffsave(<出力画像ファイルのパス>, tile=True, compression='jpeg', pyramid=True, tile_width=256, tile_height=256) 上記は、以下と同じ結果が得られる（はず）です。 vips tiffsave <入力画像ファイルのパス> <出力画像ファイルのパス> --tile --pyramid --compression jpeg --tile-width 256 --tile-height 256

2022年3月30日 · 更新: 2022年3月30日 · 1 分 · Nakamura

【Google Colab】はてなブログのAtomPub APIを用いた記事一覧の取得

はてなブログのAtomPub APIを用いた記事一覧の取得用サンプルプログラムを作成しました。以下のGoogle Colabでお試しいただけます。 https://colab.research.google.com/drive/15z0Iime9Bbma7HW09__Fq_fRkcWP6nyS?usp=sharing 上記のプログラム実行後、以下に示すようなExcelファイルがダウンロードされます。 https://docs.google.com/spreadsheets/d/14myDqZTxocwOT0Mw3ZzKLO81E6r15R-49oUh2dG9Rbo/edit?usp=sharing 「metadata」シートにブログの情報、「items」シートに記事の一覧が格納されます。他のアプリケーションとの接続のため、「metadata」シートのA列や見出し行、「items」シートの見出し行の表記などでわかりにくい点がありますが、はてなブログのAtomPub APIの利用にあたり、参考になりましたら幸いです。

2022年3月22日 · 更新: 2022年3月22日 · 1 分 · Nakamura

【備忘録】Googleドライブ上のフォルダ一括削除プログラム（例）を作成しました。

背景くずし字のデータセットを利用していた際、データの処理操作を誤り、以下のようにUnicode名を持つフォルダをマイドライブの直下に大量に作成してしまいました。この課題に対して、本記事では、Googleドライブ上の複数のフォルダを一括削除するプログラムについて説明します。なお、本記事は備忘録的な側面が強いです。対象読者 Google Cloud Platformについての知識をお持ちの方対応策この問題に対して、Googleドライブ上のフォルダ一括削除プログラム例を作成しました。以下のGoogle Colaboratoryでお試しいただけます。 colab.research.google.com このプログラムの操作方法については、上記のプログラム中でコメントしていますが、まずは、以下のような項目を持つcredentailsを取得する必要があります。上記プログラムの実行後、以下のように、無事にフォルダを一括削除できました。まとめ一括削除を行うため、利用にあたっては十分に注意する必要がありますが、本記事と同様の課題をお持ち方の参考になりましたら幸いです。

2022年3月9日 · 1 分 · Nakamura