専門家向けの感じの日本語OCR処理ソフトウエアが公開されています

国立国会図書館、OCR処理プログラムと学習用データセットを公開という記事をみました。 これはGithubに公開されているプログラムで、たとえば古い日本語の本の画像をよみこんで、OCR処理をしてテキストファイルを出力するといった使い方ができるソフトウエアです。プログラムのインストールと使い方はhttps://github.com/ndl-lab/ndlocr_cli
で公開されています。Ubuntuにインストールしてdockerを利用して使うもので、GPUも使うのでそれなりのスペックのLinuxパソコンが必要らしいです。ただもっと簡単に、Google Colaboratoryで試すこともできるようで、まずこちらで試してみるのがよさそうです。https://zenn.dev/nakamura196/articles/a8227f4524570c

This website stores cookies on your computer. These cookies are used to provide a more personalized experience and to track your whereabouts around our website in compliance with the European General Data Protection Regulation. If you decide to to opt-out of any future tracking, a cookie will be setup in your browser to remember this choice for one year.

Accept or Deny