専門家向けの感じの日本語OCR処理ソフトウエアが公開されています

投稿日: 2022年5月17日投稿者: root

国立国会図書館、OCR処理プログラムと学習用データセットを公開という記事をみました。　これはGithubに公開されているプログラムで、たとえば古い日本語の本の画像をよみこんで、OCR処理をしてテキストファイルを出力するといった使い方ができるソフトウエアです。プログラムのインストールと使い方はhttps://github.com/ndl-lab/ndlocr_cli
で公開されています。Ubuntuにインストールしてdockerを利用して使うもので、GPUも使うのでそれなりのスペックのLinuxパソコンが必要らしいです。ただもっと簡単に、Google Colaboratoryで試すこともできるようで、まずこちらで試してみるのがよさそうです。https://zenn.dev/nakamura196/articles/a8227f4524570c