今日はpdfをテキストファイルにする方法をいくつか紹介します。
論文や本のpdfファイルをテキストファイルに変換すると、テキストエディタなどでgrep検索ができるようになります。(grepができるソフトについては末尾の註を参照してください)
grep検索すると本文の検索語を含む部分を一覧で表示してくれるので、タグジャンプして該当する本文を読めます。読んだあとはバックタグジャンプでもとのgrep検索結果にもどり、つぎの検索結果にカーソルをあわせてタグジャンプするというのを繰り返せばよいわけです。これは便利ですのでやったことがなければ是非試してみてください。
またテキストファイルにしたpdfファイルから、任意の単語を抜き出してくることも簡単にできます。私はpdfファイルに含まれている線虫C. elegansの遺伝子名をプログラムで抜き出してきて一覧にする作業を先日やりました。プログラムはChatGPT5に書いてもらいました。
ではpdfファイルをテキストファイルにする方法をいくつか紹介します(これもChatGPTに教えてもらった方法の一部です)。
① pdftotext(Poppler)(Linux / Mac / Windows)を使って変換する:
特徴: 高速・軽量、コマンドラインで使える。grepとの相性抜群。
インストール(Ubuntu例):
sudo apt install poppler-utils
【使い方】
pdftotext input.pdf output.txt
改行や段落が崩れることもありますが、検索用には非常に向いています。
② Calibreを使って変換する:
Calibreはフリーの電子ブック閲覧ソフトです。
特徴: GUIで簡単にPDF→TXT変換可能。
ダウンロード: https://calibre-ebook.com/
【使い方】
PDFをCalibreに読み込む。
「本を変換」→ 出力形式を「TXT」にする。
保存
③ Microsoft Office を利用する方法:
WordでPDFを開く(Office 2013以降)
WordでPDFを直接開くと、自動で編集可能な形式に変換してくれます。
その後「名前を付けて保存」で「.txt」形式を選ぶ
以上の方法で、図はテキストファイルには入りませんし、レイアウトが崩れる可能性もあります。しかし検索目的なら問題はありません。簡単ですので是非試してみてください。
註:grepが使えるソフトやエディタのまとめ。ChatGPTに教えてもらったものが中心です。 VSCodeがよさそうですね。
-
Windows: AstroGrep / grepWin / Notepad++/秀丸エディタ
-
Mac: EasyFind / BBEdit / TextMate
-
Ubuntu: Catfish / Krusader / VS Code
-
共通: VS Code / Sublime Text