テキストデータをどんどん蓄積していくソフトの紹介その3―詳しいTextclipperのclipfileツールの使い方です

前に紹介したTextClipperのクリップツールの一つclipfileを作者の吉村隆樹さんがバージョンアップしてくださいました(2018/11/28)。前のバージョンを使っている方は新しいバージョンにしてください。ここからバージョンアップ版をダウンロードして解凍してできたclipfile.ctaファイルをtextclip7962フォルダ中に上書き保存するだけです。以前のバージョンでは保存日時の年号が正しく入らなかったのですが、今回のバージョンアップで2018がちゃんと入るようになりました。吉村さんによると典型的な2000年問題だったそうです。バージョンアップをお願いして数時間で新バージョンを作ってアップロードしてくださいました。吉村さん、どうもありがとうございました。

以下では先日紹介したTextClipperのクリップツールclipfileの使い方をもうすこし詳しく紹介しておきます。
1)まずTextClipperをここからダウンロードしてダウンロードしたzipファイルを解凍してください。解凍してできたフォルダがtextclip7962という名前になります。このフォルダはProgram Filesのフォルダには入れないでください。入れると動きません。このプログラムを使用するには7-zip32.dllが必要です(バックアップ時)のでここから取得してください。

2)ここまでの作業でtextclip7962というフォルダができました。バージョン番号がフォルダ名になっていますね。TextClipper本体はこのフォルダの中にあるtextclip.exeです。これをダブルクリックするとTextClipperが起動します。このソフトの使い方については

http://www.hi-ho.ne.jp/makoto_watanabe/tc/index.html などをみてください。

では次にclipfileというクリップツール(TextClipperの機能拡張のようなものです)をインストールしましょう。これはブラウザにかぎらずMS WordやAcrobat Readerで表示しているpdfファイルなど、任意のソフトで表示しているテキストを選択し、それを規定の名前のテキストファイルTc_txt.txtに次々と保存できるツールです。
一つのテキストファイルに、保存日時と出典、および保存時に追加できる任意のキーワードとともに保存してくれます。新しくクリップしたテキストはもとのテキストファイルの末尾に追加されます。これを使うと、ネットサーフィンで見つけたテキストをキーワード付きでテキストファイルで保存できますので、あとで秀丸など適当なテキストエディタでgrep検索して簡単に探し出すことができます。保存するときに将来検索の時に思いつきそうな、選択したテキストには含まれないキーワードを追加しておけるので、後々の検索時に探しもれが少なくなるのもこのツールの便利な点です。

3)では、clipfileを使えるようにしましょう。
以下のurlからクリップツールのclipfileを選んでダウンロードします。
http://takaki.la.coocan.jp/freesoft/textclipper/
ここをクリックしてダウンロードしてもいいと思います。clipfile.zipがダウンロードできますので、前に紹介した7-Zipなどのソフトで解凍します。解凍してできたclipfile.ctaというファイルを上の2)でできたtextclip7962のフォルダにドラッグして移動させます。これでclipfileを使う準備ができました。

4)TextClipperを起動して、clipfileを使ってみましょう。
まずTextClipperを起動します。

上の図のヘルプの左にある、環境設定を選び、

開いてでてくるメニューでクリップツールキーをAlt+cなど好きなキーの組み合わせに設定します。

これでAlt+Cを押したらクリップツールが動くように設定できました。

5)では、実際にテキストを適当に選んでスクラップブックのようにテキストファイルに保存してみましょう。
まずTextClipperを起動しておいてください。そのあと、ブラウザなどで適当なサイトを訪れて、保存したいテキストを選択し、さっき決めておいたクリップツールキー(Altをおして同時にCを押す)を押します。すると下の画像のようにポップアップメニューが開いて一番上に「TextFileに追加」がありますのでこれを選択します。
するとキーワード入力のポップアップ画面が開きますので、あとで検索に便利なキーワードを入れます。複数入れても構いません。自由に入力しましょう。

保存ボタンをおして完了です。Tc_text.textという名前のファイルに上の選択した部分が出典の一部、日時、キーワードとともに保存されているはずです。

ではうまく保存できたかどうかをtextclip7962フォルダ内にできているTc_txt.textというファイルを開いて確認しましょう。出典、日付、キーワード、クリップしたテキストの順に保存されていたら成功です(下図参照)。

上の例では、私の去年の学会でのランチョンセミナーの講演動画がでているYouTubeのページにあるテキストをクリップしたテキストの後に、今しがたクリップした論文のテキストが追加されています。N型糖鎖、先天性グリコシル化異常症などとあるのは、さきほどつけたキーワードです。その下にクリップしたテキストが保存されているのがわかります。

このように、ちょっと気になったテキストを、どんどんクリップして蓄積しておき、あとで秀丸エディタなどのテキストエディタのgrep検索機能で検索します。grep機能についているタグジャンプ機能を使えば該当するクリップしたテキスト全文のある場所に容易にジャンプすることができます。テキストファイルのサイズが大きくなってきたら、Tc_text.textファイルの名称をTc_text1.txtなどすきな名前に変更します。次にclipfileツールでクリップしたら、自動的にまっさらなTc_txt.txtファイルができてそこに保存されますので、またゼロからクリップがはじめられます。

こうしてできた大量のクリップファイルを一斉に grep検索したら何年にもわたって蓄積したデータを一瞬で検索できて便利です。データはテキストファイルですので、加工も活用もきわめて簡単です。英語論文の例文集の作成、アイデアメモの作成などいろいろな用途につかえるすばらしいツールですので是非活用してみてください。

写真は福岡で撮影したイチョウです。とてもきれいに黄葉しています。秋も深まってきました。

 

AntConcの使い方と活用法その2―自分専用の英語論文例文集(コーパス)の作り方pdftotextの使い方

前回紹介した英語論文用の例文集に使えるAntConcはテキストファイルやhtmlファイルを扱いますが、最も身近な英語の例文集の素材はpdfファイルだと思います。そこで今回は英語の例文集の作成のために重宝する、「pdfファイルをテキストファイルに変換する方法」を紹介します。AcrobatやFoxit Readerなどでpdfを開いて、textファイルとして保存する方法は、pdfファイルが数百、数千ある場合は手作業では対応できません。こんな場合は、Acrobatなどで複数のpdfファイルを一つのpdfファイルに結合してからtextファイルに変換するという方法もありますが、そんなめんどうくさいことをしなくてもpdftotextという無料ソフトを使えば一括で複数のpdfファイルをそれぞれ別のテキストファイルに変換でますので、やってみましょう。

まずpopplerというpdfを扱うプログラミングライブラリ(その中にpdftotextが入っています)をお使いのWindows, Mac, linux用のものを選んでダウンロードしてインストールします。linuxではsudoコマンドでpopplerをダウンロードしてインストールできますし、Mac版もアプリストアからダウンロードできるはずです。私が使っているWindows 10やWindows 7のPCの場合については、ここに詳しいインストールの仕方が書いた記事がでているのを見つけました。大変丁寧に書いてありますのでそのよく読んでインストールしてください。私もこの記事のとおりにインストールして利用しています。

私はCドライブ直下にpoppler-0.68.0というフォルダ(ダウンロードしたPopplerの圧縮ファイルを解凍(解凍ソフトは註1をみてください)してできるフォルダ名のままコピーしただけです)を作り、その直下にあるbinフォルダ(binaryフォルダの意味で、実行ファイルが入っているフォルダのことです)に自分の必要なpdfファイルを集めてテキストファイルに変換しています。shareフォルダの下にはpopplerとrenameしたデータファイル(上述のホームページにあるリンク
https://poppler.freedesktop.org/poppler-data-0.4.9.tar.gz からダウンロードしたpoppler-data-0.4.9.tar.gzファイルを解凍したもの。註1参照)をおいてください。あとは以下のコマンドを記述したバッチファイルをテキストファイルエディタで作ることが必要です。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

このコマンドをテキストファイルエディタにうちこみ、できたファイルに適当な名前(pdf2txt.batとかすきな名前)をつけて保存します。保存のときデフォルトではテキストファイルで保存されれウため、pdf2txt.txtになりますのでファイル名の変更でpdf2txt.batにするか、保存時に.batで保存してください。保存場所はpdftotextのあるフォルダ(上の例ではbinフォルダ)にします。

あとは、変換したいpdfファイルを上のbinフォルダにコピーして、コマンドプロンプトでpdf2txt.batファイルを実行するだけです。日本語のファイルも英語のファイルもともにテキストファイルに変換されます。(invalid font weightというエラーが出るかもしれませんが無視してよいようです。不都合があったら教えてください。)

以下はコマンドプロンプトが初めての人むけの簡単な説明です(註2参照)。

バッチファイルというのはwindowsのコマンドプロンプト(windows7では「すべてのプログラム」の部分をみていくと、アクセサリフォルダの下にあります。windows10では下の図の左端の写真ようにシステムツールの下にあります。)でファイル名を入力してエンターを押すと、ファイル内に書いてあるコマンドを逐次実行するというものです。

矢印のコマンドプロンプトをクリックして起動するとき右クリックで、管理者として実行を選んで起動しておくと管理者としてログインしていないときにおこるトラブルをさけられますので注意してください。

今回のバッチファイルは以下のような内容で動きました。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

意味は、iという変数にpdfのファイル名をいれ、それにpdftotextコマンドを実行してpdfのファイル名(%%i)のついたテキストファイル(%%i,txt)を作るという操作をフォルダ内にあるすべてのpdfファイル(*.pdfというワイルドカード*を使っている部分で、任意のファイル名のpdfファイルを表しています) がなくなるまで一個ずつ繰り返す(for    doの部分)というものです。

コマンドプロンプトを上に説明したように起動すると、黒いバックに白い字の画面が開きます(上の真ん中の図)
自分の今いるディレクトリ(フォルダ)の名前が表示されています。これから目的のpopplerのフォルダを探すとき、たとえばCドライブの直下にpopplerのフォルダがあるなら、コマンドプロンプトでcd ..(cdとうって、ピリオドを二回うちます)というコマンド(これはディレクトリを上に登って行くコマンドです)を何回かうってディレクトリをC:¥>にします。上の図の右端の図。
dirとうつとディレクトリやファイルの一覧が表示されます。
popplerのフォルダへ移りたいのでcd poppくらいまでをタイプしてあとはタブキーを押してください。タブの自動補完機能でcd poppler-0.68.0と自動入力されます。(このタブ補完の機能はlinuxで重宝するのですがWindowsのコマンドプロンプトでも利用できますので活用してください。) enterキーを押すとC:¥poppler-0.68.0>と表示されてディレクトリを移動したのがわかります。ここでdirとうってenterを押すとディレクトリ内のファイルとフォルダが表示されます。プログラムファイルのあるbinのフォルダ(ディレクトリ)があるのを確認してください。cd binとうってenterを押すとbinのディレクトリに移動します。C:¥poppler-0.68.0\binとなっていたら成功です(上の右端の図)。再びdirとうってenterをおします。これでこのbinフォルダ内にあるすべてのファイルとフォルダが表示されます。あとはそこにコピーしてあるバッチファイルpdf2txt.batを実行する(コマンドラインにpdf2txtとうってenterを押す)と、自動的にファイル名のついたtxtファイルができあがります。

こうして一括でpdfファイルをテキストファイルに変換したら、あとはこれらのテキストファイルをAntConcに読み込んでコーパスとして論文を書くときに参照すればいいわけです。

もちろんテキストファイルですから、テキストファイルを一括検索して、検索結果にタグジャンプして参照できるgrepコマンドも使えます。適当な、grepコマンドが使えるエディタ(たとえば有料ですが秀逸なエディタでおすすめの秀丸エディタ)でpdfの内容を串刺し検索するのもよいですね。pdfgrepというソフトもあって、これを使えばpdfファイルのままでgrepができるそうです。これはまだ使っていません。windows版をダウンロードしてさきほどのbinファイルにコピーしておけば、コマンドプロンプトで使えるのですが、linux版とちがって検索語がハイライトしなかったりしてまだ使いこなせていません。興味のある方は使ってみてください。

註1:圧縮ファイルの解凍には私は7-zipを使っています。たいていの圧縮解凍はこれでできます。
註2:パスの通し方とかは説明しないでpdftotextを使う方法を説明していますので、良く知っている方はパスを通して適当な場所にpdftotextをおいて使ってください。

AntConcの使い方と活用法その1―自分専用の英語論文例文集(コーパス)の作り方

京都でひらかれた大学の同窓会にでかけたりして更新が遅くなりました。京都は快晴で、まだもみじの季節ではなかったですが美しかったです。しかし観光客が多いこと多いこと。スペイン語や中国語、韓国語、さらにはノルウエーの旗を立てた団体もみかけました。

さて、昨年の分子生物学会のランチョンセミナーの中でAntConcというフリーソフトウエアの紹介をしました。英文を書くときに自分専用の例文集を作っておいて、それが簡単に検索できればとても役立ちます。前回紹介したTextClipperで役にたちそうな例文をテキストファイルに集めておいて、AntConcというフリーウエアでコンコーダンス検索してヒットした例文を参考に英語を書く方法を紹介します。もちろん自分の関係分野の論文のpdfをテキストファイルに変換して集めておき、それをAntConcで検索してもいいわけです。pdfをテキスト化するには、pdfをAcrobatなどで開いておいてtextファイル形式で保存するのも一つのやり方ですが、一斉にpdfをテキスト化するならLinuxやWindows、macなどにあるpdftotextといったソフトを使うのが便利です。ウインドウズにもこれが含まれているLooperというソフトがありますのでそれを使うといいでしょう。これについては次回紹介します。

それではAntConcの使い方の解説をはじめます。AntConcはコンコーダンスソフトウエアという種類のソフトウエアで、検索語を入力するとテキストファイルからその単語を拾い出し、文中に含まれるその単語の前後をふくめて表示してくれるソフトです。単語の文中での出現頻度などその他の様々な情報もわかります。まず早稲田大学のLaurence Anthony先生ホームページから自分のパソコンのOS(mac, windows, linux)にあったソフト(無料です)をダウンロードします。ここのリンクをご覧ください。
AntConcのホームページには、YouTubeの解説動画や日本語の解説pdf(バージョン3.2,2の解説ですがとても参考になります)などへのリンクもありますので適宜参照するといいでしょう。
ダウンロードしたファイルは実行ファイルなのでダブルクリックして起動します。詳細な使い方は先生のhelpファイルのpdfがあるのでダウンロードしてみてください。

写真はダブルクリックして起動した直後の画面です。起動時にはConcordanceタブが開いています。 Fileメニューが上にあります。Fileメニューをクリックするとプルダウンメニューが開き、その一番上にあるOpen File(s)を選んで検索したいファイル(複数選択可能です)を読み込みます。(下の図)

複数のファイルを読み込んで串刺し検索もできます。またOpen Filesの下のOpen Dirを選ぶと、フォルダ(あるいはDirectory)内にあるすべてのテキストファイル(とかhtmlファイル)を検索してくれます。こうして必要なファイルを開いてやると以下のような画面になります。
下の写真は私達の論文(AkiyoshiさんのCGGDBデータベースについての論文をpdfからテキストファイルにしたものでcggdb.txtという名称にしました)を開いたところです。
Current Filesというところに検索するファイル名が表示されます。複数選択した時は選択したすべてのファイルが列挙されます。
では検索してみましょう。resultという単語を検索することにします。Search Termの部分にresultといれて検索窓の下にあるStartボタンを押して検索してみましょう。(このとき右にあるwordsにチェックをいれています(下図参照)。単語としてのresultが検索されます。Caseにもチェックをいれると大文字小文字の区別をして検索できますし、Regexにチェックを入れると正規表現(Perlタイプのもの)が検索に利用できます)ヒット数は上のほうのConcordance Hits に表示されます。

6個ヒットしています。注意したいのはWordsにチェックを入れた状態で、resultを検索するとresultsは検索されないことです。Wordsのチェックを外してresultとして検索すると、resultだけでなくresultsもresultedもresultingもひっかかってきます。(下図)

ヒット数が57となっているのがわかると思います。
Concordanceメニュ―では、resultというキーワード(Key Words)が文のコンテクストの中で(In Context)どのように使われているかが表示されています。この表示を略してKWIC表示といいます。結果の表示法は、いろいろ下のメニューで変更可能です。たとえばSearch Window Sizeはデフォルトで50文字(腱索キーワードの前後50文字ずつ)となっていますが、これは増やしたり減らしたりできます。ちょっと表示を左右に広げてみるとよくわかります。

Search Termの検索窓の下のほうにKwic Sortとあるのは、検索結果のソートボタンです。

図ではLevel 1が1R(キーワードresultの右の語でアルファベット順にソート)、Level 2が同じ右の単語の場合は、キーワードの二番目の単語でさらにソートします。それがLevel 2 2Rという部分です。Level 3は三番目の単語でさらにソートとなります。もしresultの左の単語でソートしたいときは、Level 1以下の部分を下向きの矢印ボタンを何回かクリックして、下の図のようにかえて、Sortボタンを押してください。

すると検索キーワードの左の単語で再ソートされますので、resultの前にくる単語がわかります。

次にKWIC画面で表示されている原文をみてみましょう。みたいヒット行の青字で表示されているキーワードをクリックしてみましょう。クリックした文を含む原文がFile Viewタブが開いてそこに表示されます。

Hit Locationという部分の上下の矢印をクリックすると、前や後のresultを含む原文が表示されます。カーソルをFile View画面で動かせるようにしておくと、マウスの中央ホイールをくるくるまわして前後のresultを表視することもできます。

皆さんもご自分でつくったテキストファイルやテキストファイル群をこのソフトで開いて遊んでみてください。大変有用なソフトです。ちょっと長くなったので今回はここで止めます。次回はAntConcのその他の機能と、どうやってpdfからtextファイルを作るかについてpdftotextの使い方を紹介したいと思います。

写真は元寇のとき筥崎宮が避難していた場所を訪れたときのものです。とてもいい天気で気持ちがよかったです。バス停をおりると案内板があって、650mほどのぼりの道を行くと古い社があって記念碑がたっていました。人はだれもいません。一番最後の写真は帰りの川面です。波紋がきらきらと川底に映えてハヤも泳いでいました。このへんはホタルも初夏には見られます。

 Firefox ESR版の重要な更新についてのお知らせ―古いアドオンがとうとう使えなくなりました

台風の大きな被害が各地で報道されていましたが、今度は大きな地震にみまわれてしまいました。被災した皆様に心からお見舞い申し上げます。また救出作業や停電やライフラインの復旧など、様々な活動に日夜尽力されておられる皆様に心から感謝いたします。

 

今回は以前からFirefox ESRを使っていた皆さんへのお知らせです。

とうとう本格的にFirefox Quantum最新版への移行が必要になりましたね。Firefox ESRがFirefox Quantumベースの最新版になったため、自動更新にしている方は今までESRで利用していた古いアドオンがほとんど使えなくなっていると思います。また手動で更新したら、せっかくESRにして使い続けていたESRでしか動かなかった古いアドオンが使えなくなってしまいますので気をつけてください。たとえばScrapBookとかです。ScrapBookは便利なアドオンですので、最新のFirefoxに対応してもらいたいものです。要望はあるようですがなかなか開発されないようです。その点、Life Science Dictionaryはすぐに最新版に対応してもらって本当に良かったと思います。 FirefoxChrome版のありかを念のためにリンクしておきます。

以下に前のバージョンのFirefox への戻し方を書いておきます。
ただ古いFirefoxではセキュリティーアップデートが継続されませんので、使い続けることはおすすめできません。それでたとえばScrapBookの場合だったら、データを書きだすなどしてこれ以降は古いバージョンのFirefoxを使わないのがよいでしょう。最新版に自動アップグレードされてしまって、古いアドオンをどうしても使う必要がある(バックアップのためなど)ときの対処法を書いておきます。(私のwindows10ではうまくいきましたがその他のシステムでは試していません)

1)新しいFirefox(60番台のESR版)では今まで使っていた多くのアドオンが使えなくなっています。では記憶させていたログイン情報とかパスワードとかはちゃんと自動アップデートされたFirefoxに記憶されているでしょうか。念のため、ログイン情報やパスワードがちゃんと新しいFirefoxに移行されているかどうかを確認してください。このFirefoxをこれからいじりますので、これらが消えてしまうと大変です。さらに念をいれて、以下のやり方が失敗した時に備えて、私はログイン名とパスワードを表示した画面をデジカメで撮影しておきました(パスワードなどを書きだすアドオンが動いておればそれで書きだしてもいいです)。

では古いFirefoxに戻しましょう。

2)自動更新で新しくなってしまったFirefox Quantum ESR版のFirefoxを起動し、ヘルプメニューにあるトラブルシューティング情報という項目をクリックしてみてください。プロファイルフォルダへのリンクがあるのでクリックしてプロファイルフォルダの場所を開いてください。Firefoxはプロファイル(profile)フォルダというフォルダにログイン情報とかブックマークとか、アドオンの情報などすべてを集めていますので、これさえあればトラブルがおこっても大丈夫、ちゃんと動いていた時のFirefoxに戻すことができます。どこか好きなところにこのプロファイルフォルダを中身ごと全部コピーしてバックアップとしてとっておきます。これがあれば最悪、自動アップグレードした状態へもどれます。

3)古いFirefoxに戻すやり方は簡単です。自動アップグレードされる前の古いバージョンのFirefox 52.9.0 ESRのインストーラー(以下にありかを書いておきます)を使って、インストールします。 デフォルトでインストールすれば、古いバージョンが復活するはずです。必要なアドオンを起動して、使え困りまりますので、ツール、オプション、詳細と選択して、更新をクリックし、更新を自動的にインストールするのチェックを外して自動インストールしないようにしておきましょう。

自動更新される前のFirefoxESR版ですが、昔インストールしたときのインストーラファイルがあればそれを使います。なければ以下のftpサイトからダウンロードできます。Mac版、Windows版、Linux版など昔のものから最新のものまでいろいろそろっていますので、必要なインストーラーをダウンロードして、インストールすると、更新される前のバージョンに戻ります。

ひとつ前のバージョン52.9.0esrここにあります。 ウインドウズ版は win64のディレクトリをクリックして開いたフォルダからダウンロードできます(win32は32ビット版)これは前にインストールしてあったScrapBookが使えますが、停止されておりaddonのインストールメニューから探して再インストールする必要があります。もう少し古いもの52.7.3esrここにあります。これはインストールするとすぐにScrapBookが使えます。

覚えておくといいのはプロファイルフォルダの管理のことです。実は私はFirefox Quantumをめったに使っていませんので、以下はFirefox Quantum以前のFirefoxでしか試していません。Firefox Quantum ではうまくいかないかもしれませんので注意してください。

プロファイルフォルダにはブックマークだのアドオン情報などがすべてあつまっていますので、別の パソコンにFirefoxをインストールしたとき、もとのパソコンの情報をそっくり引き継ぐのは新しくインストールしたFirefoxのプロファイルフォルダの中身を、前のパソコンのプロファイルフォルダの中身にそっくり置き換えれば可能です。私が退官するときに古いパソコンのFirefoxの設定をプロファイルフォルダのコピーで別のパソコンへ移しました。もう少し詳しく書くと以下のとおりです。

新しくFirefoxをインストールしてできたprofileフォルダの場所を上と同様にヘルプメニューのトラブルシューティング情報から探します。探し出したプロファイルフォルダの中身を全部消去します。空にしたプロファイルフォルダをクリックして開き、そこに先ほどコピーしておいた設定を移行したいFirefoxからコピーしておいたプロファイルフォルダの中身を全部選択して丸ごとコピーするといいです。こうすると、昔のFirefoxがよみがえります。

写真は道端に咲いていた月見草です。