今日は日本語のOCRソフトを二つ紹介します。
一つ目は、日本の古文書(江戸期以前や)をOCRするソフトウエア『NDL古典籍OCR-Lite』です。国立国会図書館がCC BY 4.0ライセンスで公開するソフトウエアです。
NDL古典籍OCR-Liteは、ノートパソコン等の一般的な家庭用コンピューターやOS環境(Windows, Mac, Linux)で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCR(光学的文字認識)とのことです。GPU不要の軽量なソフトだそうです。
このソフトを公開した、という紹介記事はこちらにあります。
https://current.ndl.go.jp/car/230438
ソフトのダウンロードや使い方はこちらにあるのでダウンロードして使ってみてください。
NDL古典籍OCR-Liteアプリケーションのリポジトリ
https://github.com/ndl-lab/ndlkotenocr-lite
よく「開運なんでも鑑定団」で依頼人が出品した掛け軸に何が書いてあるかわからないという場面をみかけますが、このソフトならOCRしてテキストファイルにして読めるかもれませんね。日本の古典が自分で読めるようになるのは画期的です!暇ができたら私もインストールしてみたいです。
もう一つは、日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」というPythonのパッケージです。こちらはGPUを使うのが推奨ですが、強力なOCRが使えるようになったのは画期的ではないでしょうか。ネットにつながない状態で自分のPCでOCRができるので、会社の資料のOCRなどにも使えそうです。
詳しくはこちらの記事にのっています。
https://note.com/kotaro_kinoshita/n/n70df91659afc
日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita @KINOCOAI #note https://t.co/ER8r4gTxs9
— Kotaro Kinoshita (@KINOCOAI) November 26, 2024
こちらのGitHubのページに使い方やインストール方法が詳しくのっています。
https://github.com/kotaro-kinoshita/yomitoku
Google Colabでも使えるみたいです。マンガのOCRの例がネットにでていました。
『YomiToku で漫画のOCRを試す』
https://note.com/kotaro_kinoshita/n/n70df91659afc