論文のレフリーのやり方―おすすめの査読の手引き書がでています

論文をだすようになると、査読依頼がくることが増えてきます。昔は査読の仕方は先輩や先生に教えてもらっていたのですが、最近とてもよい本が出たので紹介します。水島昇さんの本です。
「科学を育む 査読の技法+リアルな例文765」(羊土社)という本です。
https://www.yodosha.co.jp/yodobook/book/9784758121132/22.html
水島さんはノーベル賞を授賞された大隅先生の協同研究者でもあり、同時受賞を推す方も多かったと聞いています。私がJSTのさきがけの研究費をもらっていた時の仲間です。日本生化学会の会長もされていたことがあり、最前線で活躍されている科学者です。
この本は例文ものっていて、私が前に紹介していたように、オンラインで公開されているレフリーのコメント(たとえばここここにあります。前のEMBO journalのサイトでは論文を開いて、Peer Reviewというタブをクリックするとみられますし、後のeLifeのサイトでは論文を開いて、横のReferecesの下にあるDecision Letter―これは論文を掲載するかしないかなどについて編集部から著者へ送られてくるメールのことです―のところをクリックするとみられます)から学ぶ方法と組み合わせると、査読の要領がよくわかる絶対おすすめの本です。是非購入してお手元におかれることをすすめます。

なお九州大学の方はMaruzen eBook Libraryで無料で読めます。オンラインで読むのもいいですし、ダウンロードして読むのもおすすめです(ただし1日60ページの制限があります)。他大学の方もそれぞれの図書館がMaruzen eBook Libraryを契約しているならそちらで読むことが出来ると思います。
今日の写真は、秋の青空にかかる月(9月29日撮影)を背景に、落ち葉の季節の桜の木にかかったクモとクモの巣が写っています。拡大してよくみると一番下の枝の尖端あたりに蜘蛛がいるのがわかるのですが‥‥
昨日は散歩の途中、家の近くの路上でタヌキがたたずんでこっちを見ていました。ちょっと離れていたので、写真を撮ったのですがうまくとれませんでした。長いしっぽでよその家の庭にはいっていきました。間近にタヌキをみたのははじめてです。ハクビシンも住宅街をうろついています‥‥。

科学英語の書き方についての無料オンラインコース(スタンフォード大学医学部)の紹介です

五月になってあたりは緑と花にあふれています。

今日はゴールデンウイークなので無料のオンライン英語コースの紹介です。連休中にちょっと見てみるといいと思います。スタンフォード大学医学部の准教授(疫学や統計学、およびwritingの専門家)のかたがやっているオンラインコースです。

登録して無料で受講することもできますし、
https://www.coursera.org/learn/sciwrite
過去のビデオは下のリンクをクリックしてYouTube動画のリストを表示して見られますので、それを順番にみるだけでも勉強になります。YouTubeでは字幕もだせるので、聞き取りの練習にもなると思います。
https://www.youtube.com/channel/UC-wb-n89yM0lBiP2QltsDaA/videos
が過去ビデオの一覧です。下のビデオはイントロです。

写真は、近所に咲いていた藤の花とキンラン(金蘭)の花です。今年のキンランは例年の花にくらべてとても元気がよくて花もしっかり開いていました。どちらの花も4月下旬の撮影です。拡大するには画像をクリックしてみてください。

Firefoxの不具合をリフレッシュ機能で解消する

昨日はFirefox の古いesr版を最新版へとアップグレードする方法とScrapBookやSageのアドオンの代替品を紹介しました。スムーズにアップグレードできる場合とできない場合がありましたが、後者の場合はFirefoxのバージョンを上げたり、下げたりいろいろいじっていたのがうまくいかない原因だろうと思います。
後者の場合ですが、無事にScrapBookとSageの代替品のインストールも終わって、どちらもうまく使えるようになったので一安心して、再起動すると、なんとツールバーのScrapBookとSageのアイコンが透明になって、マウスをあてると、そこにアイコンは存在するのですが押してもうまく動きません。そして設定したscrapbook.rdfの場所や、Sage feedsの場所の設定も消えてしまっていて初期設定に戻っていました。いろいろGoogle検索したのですが解決法はみつからず、結局Firefoxのリフレッシュを試したところ、うまくいって不具合を解消できたのでやり方をメモしておきます。

リフレッシュのやり方はここにあります。
https://support.mozilla.org/ja/kb/refresh-firefox-reset-add-ons-and-settings

リフレッシュすると、アドオン(拡張機能)やその設定などは消えてなくなりますが、ログインパスワードを含むログイン情報、ブックマークなどは保存したままFirefoxの不具合が解消されるそうです。不具合のあるFirefoxで、上のリンクにアクセスして、ページ内のリフレッシュボタンを押すなどするとリフレッシュが始まります。リフレッシュ中に今までのprofileフォルダはOld Firefox Dataという名前のフォルダとしてデスクトップに保存されるので、デスクトップフォルダの空容量がprofileフォルダを保存するのに十分かどうかを、リフレッシュの実行前に必ず確認しておいてから実行してください。このOld Firefox Data フォルダには前のprofileがそのまま残っていますので、リフレッシュで不具合が出た場合は、このprofileから復旧できます。

リフレッシュが終わるのに時間がかかる人が多いかもしれませんが、じっとまちましょう。しばらくするとリフレッシュが終わります。私の場合、復元とかいうボタンがでたので押しました。終わると私のブックマークタブとかもきれいになくなっていて失敗かと思ったのですが、右上の三本線ボタンを押して、ヘルプ、トラブルシューティング情報、profileで確認すると全く新しいprofileフォルダができているのがわかりました。その中にはたしかにブックマーク情報もはいっているようでした。これを確認した後再起動すると、(記録をとっていなかったので二回目の再起動後かもしれません)めでたく前のブックマークやログイン情報その他が復活しており、ログイン情報も残っているのがわかりました。リフレッシュの仕様によって、すべての拡張機能(機能拡張、アドオン)はなくなっているので、さっそくSage-likeScrapBeeLie Science Dictionary Tool WebExtensionなどのアドオンをインストールしました。最後のアドオンは、Life Science Dictionaryのアドオンで、マウスカーソルを英語にあてると訳や例文がポップアップするものです。pdfをブラウザで表示すればpdfを読む時にもポップアップ辞書として使えます。私は文献の整理にZoteroを使っていますので、Zoteroのページにいって、Zotero Connectorというアドオンをインストールしました(firefoxの機能拡張ページにzoteroといれても見つかりませんでした)。このアドオンはZoteroを起動しておいた状態でツールバーのZotero connectorアイコンをクリックすると文献情報やpdfを一発でZoteroにダウンロードするものです。ZoteroはEndNoteなどのように文献整理、論文の文献欄の作成などができるソフトです。いろいろな無料文献ソフトの中では個人情報の扱いが一番ちゃんとしているようなのでここ数年はこれを使っています。

写真は散歩の途中でみつけた からすうり です。梅の木にからまっています。後ろに見えるのは柿です。秋も深まってきていますが、ここ数日、福岡は20度を越えていて、暑いです。

夏のおすすめ本2020―その2 夏目漱石の「明暗」の完結編など

今日は肩のこらない小説などを紹介したいと思います。夏目漱石の本は青空文庫で簡単にダウンロードして読めるのでおすすめですが、未完に終わった最後の小説「明暗」を完結させた小説があります。「続明暗」というタイトルで、私は去年、漱石の「明暗」に続いて読みましたが、とてもうまく完結させてあってうまいハッピーエンドになっていました。

漱石が胃潰瘍で亡くならなかったら、このような完結の仕方になったかもしれないという終わり方でした。この「続明暗」は有名な小説家水村美苗さんの作品で、芸術選奨文部大臣新人賞を受賞しています。去年NHKでやっていた夏目漱石をあつかった100分de名著の番組の中にも、この本が飾ってありました。とても面白い本ですので、是非読まれるのをおすすめします。

水村さんは、小説家でその他にも多くの賞を授賞されています(野間文芸新人賞や読売文学賞)。12才の時から米国で過ごされた方でイエール大学卒業。プリンストン大学で日本文学を教えておられたこともあり、「日本語が亡びるとき―英語の世紀の中で」という精緻な論説も書かれています。この本は大変評判になり小林秀雄賞を受賞した他、
The Fall of Language in the Age of Englishという題でコロンビア大学出版会から英訳が刊行されています。今は文庫化されているのでこちらも是非お読みください。英語で論文を書くことについて深く考えさせられる本でもあります。松岡正剛さんの千夜千冊にも紹介されています。

以前このブログで紹介したABC予想を解決された望月新一先生のブログでも、日本語と外国語という観点の記事で、水村さんについて触れられておりました。この望月先生のブログの記事は、米軍基地問題や北朝鮮問題、数学の意義についての考察のほか、論文の書き方や英語についての考察が詰まっていて、とても示唆に富む内容ですのでご覧ください。望月先生は古代ギリシャ語、ラテン語、サンスクリットなどを学ばれたそうですが、私達の苦手な定冠詞(英語のthe)や不定冠詞(英語のaとan)についていえば、古代ギリシャ語には不定冠詞はなく、ラテン語や現代ロシア語には定冠詞も不定冠詞もないのだそうです。

夏のおすすめ本2020―その1 Rに関するおすすめ本2冊

毎日猛暑がつづきますが皆さんお元気の事と思います。今日から数回にわたって、面白そうな本、役に立つ本などを紹介していきたいと思います。第一回目はR(アール)の本です。今や統計解析にソフトの定番のプログラミング言語Rは無料で使える素晴らしいソフトですが、統計解析だけではなくゲノム解析にも活躍しているソフトです。昔はグラフィカルインターフェースがなかったのですが、今ではRのパッケージのR commanderや日本の神田善伸先生(自治医科大学)が開発されたEZR(イージーアールと読みます。これも大評判になってRのパッケージになりました)がありますので、グラフィカルインターフェースでRを使うことができて、初心者にもやさしいソフトとなりました R commanderはRをインストールしたあと、パッケージとして追加インストールして使います。EZRはR commanderの追加プラグインになっています。インストールするとどちらも日本語で使えます。EZRを中心に使いたい場合は開発者の神田先生のサイトからダウンロードして使うのもおすすめです)。また、RStudioというRの統合開発環境ソフトを使えば、Rをもっと便利にスムーズに利用することができるようになったので、Rはますます便利で使いやすくなっています。インストール法については以前の記事二つがありますので、ここここを参照してください。

今日紹介するのは、EZRの使い方を、その開発者の神田先生が解説した本です。先生のホームページにも簡単な使い方などが載っていますのでそちらも参照してみてください。

EZRでやさしく学ぶ統計学 改訂3版〜EBMの実践から臨床研究まで〜神田善伸 著(2020年10月発行)

これ一冊あれば、生物系医学系の普通の統計解析はすべて日本語のプルダウンメニューを使ってできます。私も論文のデータ解析にはこの本を主に参照しています。大変役立つ本ですので、是非一冊購入して統計解析の勉強や研究に活用してください。私は第一版を購入して使っていますが、すでに第3版がでているほどに売れている本のようです。これがちょっと難しそうという方むけに、神田先生はもうすこしやさしい初心者向けマニュアルも書かれています。全く初心者の方にはこれがおすすめです。 マンガの部分もあったりしますが、統計解析の基本をひととおり学べますし、EZRの開発秘話とかものっています(立ち読みで読めます)。

サラっとできる! フリー統計ソフトEZR(Easy R)でカンタン統計解析
という本です。立ち読みしてみて、まずこちらを買うのもありかもしれません。医療や生命科学関係の事柄を急いで学びたいという人には同じ著者の

初心者でもすぐにできるフリー統計ソフトEZR(Easy R)で誰でも簡単統計解析

がいいかもしれません。まず神田先生の簡単な入門書で学び、実験データの解析には最初の本(第3版)を使うというので、Rを使った生命科学の統計データ解析には十分だと思います。他にいろいろ本を買う必要はないでしょう。(以上2020/11/19追記)

Rはバイオインフォマティクスや次世代シークエンサーのデータ解析、ゲノム解析にも大活躍しているソフトです。最近英語の本ですが、こんな本が公開されています。
Computational Genomics with Rという本です。
紙の本や電子ブックはこの秋にでるようですが、Rをつかって出力されたhtml版が上のリンクから無料で読めます。バイオインフォマティクスの専門家による本ですので、役立ちそうです。
著者は日本にもいたことがある人で、Rのバイオインフォマティクス解析用のBioconductorの多くのパッケージを開発している方たちです。著者紹介によると、この本のほとんどを書いた方は、Dr. Altuna Akalin wrote most of the book and edited the rest. Altuna is a bioinformatics scientist and the head of Bioinformatics and Omics Data Science Platform at the Berlin Institute of Medical Systems Biology, Max Delbrück Center in Berlin.(以下略)ということで、ドイツのベルリンにあるバイオインフォマティクスとオミックスデータセンターのヘッドだそうです。まだ私も読んでいないのですが、勉強してみたい本ですので紹介しておきます。

写真は、散歩の途中で撮影した山百合と葛の花です。山百合の間によくみると葛の花が咲いているのがわかります。

私の口演動画の紹介を含むページを作っていただきました

以前、分子生物学会・生化学会の合同大会2017でランチョンセミナーをさせていただきました。その動画は以前紹介したようにYouTubeにでていますが、このたび、シュプリンガー・ネイチャーが電子ブックに関するインタビューや動画をまとめたページを作成してくださったと連絡を受けたので紹介しておきます。

「著者、利用者が語るその魅力 ― イーブック体験談」というページです。私の動画紹介だけのページはこちらです。他にもいろいろ面白い動画がありますのでご覧ください。

写真は近所の公園で一昨日撮影した桜です。桜がはらはらと散る光景も目につくようになり、そろそろ散った桜の花びらが道路をおおうようになってきました。

新しい研究成果の発表の場ができています―microPublication Biologyの紹介です

福岡は暖冬のようです。例年になく早く水仙、椿が咲きはじめ、梅の開花も例年より随分早かったそうです。夜になるとオリオン座が昇ってきてとても綺麗な冬です。写真はiPhoneでオリオン座を撮影して、画像処理で見えるようにしたものです。結構感度がいいんですね。周辺の星々もちゃんと写っていました。

最近、こんな雑誌から査読依頼がきました。microPublicationといいます。

これはWormbaseのDaniela Raciti, Karen Yook,Todd Harrisさんたちが始めた研究成果の全く新しい形式での発表の場です。
”As you may know, WormBase recently launched a novel publication platform microPublication, that allows researchers to share high quality but traditionally unpublished stand-alone data and datasets.”

とDanielaさんからいただいたメールにありました。今までは論文にうまく入れ込めなずに発表できなかった研究成果、単一の論文にできなかったような優れた研究成果(データやデータセット)や取得した変異体などについても発表できて、引用できるようになるというものです。モデル生物の線虫C. elegans、ショウジョウバエ、カエルXenopusのコーナーがあり、もうすぐゼブラフィッシュやGene modelというのも追加されるようです。
Expression data, Genotype Data, Phenotype data, Genetic screens, New Methods, Software, Database updates, Integrationsなどのカテゴリーで投稿しますが、これにうまくはいらないカテゴリーのデータでもOKです。

単独では論文にできないけれど発表しておきたい研究成果があれば、図か表の一枚分くらいの程度で引用論文を含めて公開できます。

FAQのページには以下のように書いてあります。
How do you differ from traditional journals?
The major goal of microPublication Biology is to rapidly place research findings into the public domain.  Thus unlike other journal platforms, we publish single high quality research results, independent of perceived impact, which can be new research findings, negative results, reproduced/replicated results or “unpublished observations” from prior publications.  Single results can stand alone, and do not require a narrative story to placate editors. Placing such findings into the public domain not only advances the scientific endeavor, but also gives credit to the individual(s) that did the work.

このjournalの主な目的は、研究成果をすばやくpublic domainに入れることだとあります。現在のところarticle processing feeは無料、将来もsubmissionは無料だそうです。microPublicationでは、いままで雑誌に掲載できなかった否定的な結果negative resultsや、追試結果、以前の論文でunpublished resultsと書いた実験結果などの投稿もOK で、普通の論文のようにストーリーの中にいれることなく、単独で独立して発表できるという、大変チャレンジングな試みです。データを独占せず共有するという線虫コミュニティの気概を感じさせるこころみですね。同じようなものにPLosCurrentsというのがあったそうですが、これは立ち消えてしまいました。
公開例は、たとえば以下をご覧ください。

https://www.micropublication.org/expression-data.html

https://www.micropublication.org/genotype-data.html

査読者名も表示、非表示をレフリーが選べるようになっています。また公開したmicroPublicationにはDOI.が割り振られ、引用可能になります。オープンアクセスです(CC BY 4.0)Europe PubMed Centralにインデックスしてもらうようになるはずとのことです。
私も投稿してみようかと思っています。

2020年6月19日追記:PubMedやPubMed Centralにも掲載されるようになったというメールが今日とどきました。PMID もPMCIDも割り振られるそうです!
We are happy to announce that we are now in PubMed!
Articles will now be getting DOIs, PMCIDs, and PMIDs. Feel free to update your citations!
Indexing is retroactive for all past articles.
You can browse our entire index in PubMedCentral here: https://www.ncbi.nlm.nih.gov/pmc/journals/3859/

Or just do a normal search for an article in PubMedCentral or PubMed.ということです。

テキストデータをどんどん蓄積していくソフトの紹介その3―詳しいTextclipperのclipfileツールの使い方です

前に紹介したTextClipperのクリップツールの一つclipfileを作者の吉村隆樹さんがバージョンアップしてくださいました(2018/11/28)。前のバージョンを使っている方は新しいバージョンにしてください。ここからバージョンアップ版をダウンロードして解凍してできたclipfile.ctaファイルをtextclip7962フォルダ中に上書き保存するだけです。以前のバージョンでは保存日時の年号が正しく入らなかったのですが、今回のバージョンアップで2018がちゃんと入るようになりました。吉村さんによると典型的な2000年問題だったそうです。バージョンアップをお願いして数時間で新バージョンを作ってアップロードしてくださいました。吉村さん、どうもありがとうございました。

以下では先日紹介したTextClipperのクリップツールclipfileの使い方をもうすこし詳しく紹介しておきます。
1)まずTextClipperをここからダウンロードしてダウンロードしたzipファイルを解凍してください。解凍してできたフォルダがtextclip7962という名前になります。このフォルダはProgram Filesのフォルダには入れないでください。入れると動きません。このプログラムを使用するには7-zip32.dllが必要です(バックアップ時)のでここから取得してください。

2)ここまでの作業でtextclip7962というフォルダができました。バージョン番号がフォルダ名になっていますね。TextClipper本体はこのフォルダの中にあるtextclip.exeです。これをダブルクリックするとTextClipperが起動します。このソフトの使い方については

http://www.hi-ho.ne.jp/makoto_watanabe/tc/index.html などをみてください。

では次にclipfileというクリップツール(TextClipperの機能拡張のようなものです)をインストールしましょう。これはブラウザにかぎらずMS WordやAcrobat Readerで表示しているpdfファイルなど、任意のソフトで表示しているテキストを選択し、それを規定の名前のテキストファイルTc_txt.txtに次々と保存できるツールです。
一つのテキストファイルに、保存日時と出典、および保存時に追加できる任意のキーワードとともに保存してくれます。新しくクリップしたテキストはもとのテキストファイルの末尾に追加されます。これを使うと、ネットサーフィンで見つけたテキストをキーワード付きでテキストファイルで保存できますので、あとで秀丸など適当なテキストエディタでgrep検索して簡単に探し出すことができます。保存するときに将来検索の時に思いつきそうな、選択したテキストには含まれないキーワードを追加しておけるので、後々の検索時に探しもれが少なくなるのもこのツールの便利な点です。

3)では、clipfileを使えるようにしましょう。
以下のurlからクリップツールのclipfileを選んでダウンロードします。
http://takaki.la.coocan.jp/freesoft/textclipper/
ここをクリックしてダウンロードしてもいいと思います。clipfile.zipがダウンロードできますので、前に紹介した7-Zipなどのソフトで解凍します。解凍してできたclipfile.ctaというファイルを上の2)でできたtextclip7962のフォルダにドラッグして移動させます。これでclipfileを使う準備ができました。

4)TextClipperを起動して、clipfileを使ってみましょう。
まずTextClipperを起動します。

上の図のヘルプの左にある、環境設定を選び、

開いてでてくるメニューでクリップツールキーをAlt+cなど好きなキーの組み合わせに設定します。

これでAlt+Cを押したらクリップツールが動くように設定できました。

5)では、実際にテキストを適当に選んでスクラップブックのようにテキストファイルに保存してみましょう。
まずTextClipperを起動しておいてください。そのあと、ブラウザなどで適当なサイトを訪れて、保存したいテキストを選択し、さっき決めておいたクリップツールキー(Altをおして同時にCを押す)を押します。すると下の画像のようにポップアップメニューが開いて一番上に「TextFileに追加」がありますのでこれを選択します。
するとキーワード入力のポップアップ画面が開きますので、あとで検索に便利なキーワードを入れます。複数入れても構いません。自由に入力しましょう。

保存ボタンをおして完了です。Tc_text.textという名前のファイルに上の選択した部分が出典の一部、日時、キーワードとともに保存されているはずです。

ではうまく保存できたかどうかをtextclip7962フォルダ内にできているTc_txt.textというファイルを開いて確認しましょう。出典、日付、キーワード、クリップしたテキストの順に保存されていたら成功です(下図参照)。

上の例では、私の去年の学会でのランチョンセミナーの講演動画がでているYouTubeのページにあるテキストをクリップしたテキストの後に、今しがたクリップした論文のテキストが追加されています。N型糖鎖、先天性グリコシル化異常症などとあるのは、さきほどつけたキーワードです。その下にクリップしたテキストが保存されているのがわかります。

このように、ちょっと気になったテキストを、どんどんクリップして蓄積しておき、あとで秀丸エディタなどのテキストエディタのgrep検索機能で検索します。grep機能についているタグジャンプ機能を使えば該当するクリップしたテキスト全文のある場所に容易にジャンプすることができます。テキストファイルのサイズが大きくなってきたら、Tc_text.textファイルの名称をTc_text1.txtなどすきな名前に変更します。次にclipfileツールでクリップしたら、自動的にまっさらなTc_txt.txtファイルができてそこに保存されますので、またゼロからクリップがはじめられます。

こうしてできた大量のクリップファイルを一斉に grep検索したら何年にもわたって蓄積したデータを一瞬で検索できて便利です。データはテキストファイルですので、加工も活用もきわめて簡単です。英語論文の例文集の作成、アイデアメモの作成などいろいろな用途につかえるすばらしいツールですので是非活用してみてください。

写真は福岡で撮影したイチョウです。とてもきれいに黄葉しています。秋も深まってきました。

 

AntConcの使い方と活用法その2―自分専用の英語論文例文集(コーパス)の作り方pdftotextの使い方

前回紹介した英語論文用の例文集に使えるAntConcはテキストファイルやhtmlファイルを扱いますが、最も身近な英語の例文集の素材はpdfファイルだと思います。そこで今回は英語の例文集の作成のために重宝する、「pdfファイルをテキストファイルに変換する方法」を紹介します。AcrobatやFoxit Readerなどでpdfを開いて、textファイルとして保存する方法は、pdfファイルが数百、数千ある場合は手作業では対応できません。こんな場合は、Acrobatなどで複数のpdfファイルを一つのpdfファイルに結合してからtextファイルに変換するという方法もありますが、そんなめんどうくさいことをしなくてもpdftotextという無料ソフトを使えば一括で複数のpdfファイルをそれぞれ別のテキストファイルに変換でますので、やってみましょう。

まずpopplerというpdfを扱うプログラミングライブラリ(その中にpdftotextが入っています)をお使いのWindows, Mac, linux用のものを選んでダウンロードしてインストールします。linuxではsudoコマンドでpopplerをダウンロードしてインストールできますし、Mac版もアプリストアからダウンロードできるはずです。私が使っているWindows 10やWindows 7のPCの場合については、ここに詳しいインストールの仕方が書いた記事がでているのを見つけました。大変丁寧に書いてありますのでそのよく読んでインストールしてください。私もこの記事のとおりにインストールして利用しています。

私はCドライブ直下にpoppler-0.68.0というフォルダ(ダウンロードしたPopplerの圧縮ファイルを解凍(解凍ソフトは註1をみてください)してできるフォルダ名のままコピーしただけです)を作り、その直下にあるbinフォルダ(binaryフォルダの意味で、実行ファイルが入っているフォルダのことです)に自分の必要なpdfファイルを集めてテキストファイルに変換しています。shareフォルダの下にはpopplerとrenameしたデータファイル(上述のホームページにあるリンク
https://poppler.freedesktop.org/poppler-data-0.4.9.tar.gz からダウンロードしたpoppler-data-0.4.9.tar.gzファイルを解凍したもの。註1参照)をおいてください。あとは以下のコマンドを記述したバッチファイルをテキストファイルエディタで作ることが必要です。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

このコマンドをテキストファイルエディタにうちこみ、できたファイルに適当な名前(pdf2txt.batとかすきな名前)をつけて保存します。保存のときデフォルトではテキストファイルで保存されれウため、pdf2txt.txtになりますのでファイル名の変更でpdf2txt.batにするか、保存時に.batで保存してください。保存場所はpdftotextのあるフォルダ(上の例ではbinフォルダ)にします。

あとは、変換したいpdfファイルを上のbinフォルダにコピーして、コマンドプロンプトでpdf2txt.batファイルを実行するだけです。日本語のファイルも英語のファイルもともにテキストファイルに変換されます。(invalid font weightというエラーが出るかもしれませんが無視してよいようです。不都合があったら教えてください。)

以下はコマンドプロンプトが初めての人むけの簡単な説明です(註2参照)。

バッチファイルというのはwindowsのコマンドプロンプト(windows7では「すべてのプログラム」の部分をみていくと、アクセサリフォルダの下にあります。windows10では下の図の左端の写真ようにシステムツールの下にあります。)でファイル名を入力してエンターを押すと、ファイル内に書いてあるコマンドを逐次実行するというものです。

矢印のコマンドプロンプトをクリックして起動するとき右クリックで、管理者として実行を選んで起動しておくと管理者としてログインしていないときにおこるトラブルをさけられますので注意してください。

今回のバッチファイルは以下のような内容で動きました。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

意味は、iという変数にpdfのファイル名をいれ、それにpdftotextコマンドを実行してpdfのファイル名(%%i)のついたテキストファイル(%%i,txt)を作るという操作をフォルダ内にあるすべてのpdfファイル(*.pdfというワイルドカード*を使っている部分で、任意のファイル名のpdfファイルを表しています) がなくなるまで一個ずつ繰り返す(for    doの部分)というものです。

コマンドプロンプトを上に説明したように起動すると、黒いバックに白い字の画面が開きます(上の真ん中の図)
自分の今いるディレクトリ(フォルダ)の名前が表示されています。これから目的のpopplerのフォルダを探すとき、たとえばCドライブの直下にpopplerのフォルダがあるなら、コマンドプロンプトでcd ..(cdとうって、ピリオドを二回うちます)というコマンド(これはディレクトリを上に登って行くコマンドです)を何回かうってディレクトリをC:¥>にします。上の図の右端の図。
dirとうつとディレクトリやファイルの一覧が表示されます。
popplerのフォルダへ移りたいのでcd poppくらいまでをタイプしてあとはタブキーを押してください。タブの自動補完機能でcd poppler-0.68.0と自動入力されます。(このタブ補完の機能はlinuxで重宝するのですがWindowsのコマンドプロンプトでも利用できますので活用してください。) enterキーを押すとC:¥poppler-0.68.0>と表示されてディレクトリを移動したのがわかります。ここでdirとうってenterを押すとディレクトリ内のファイルとフォルダが表示されます。プログラムファイルのあるbinのフォルダ(ディレクトリ)があるのを確認してください。cd binとうってenterを押すとbinのディレクトリに移動します。C:¥poppler-0.68.0\binとなっていたら成功です(上の右端の図)。再びdirとうってenterをおします。これでこのbinフォルダ内にあるすべてのファイルとフォルダが表示されます。あとはそこにコピーしてあるバッチファイルpdf2txt.batを実行する(コマンドラインにpdf2txtとうってenterを押す)と、自動的にファイル名のついたtxtファイルができあがります。

こうして一括でpdfファイルをテキストファイルに変換したら、あとはこれらのテキストファイルをAntConcに読み込んでコーパスとして論文を書くときに参照すればいいわけです。

もちろんテキストファイルですから、テキストファイルを一括検索して、検索結果にタグジャンプして参照できるgrepコマンドも使えます。適当な、grepコマンドが使えるエディタ(たとえば有料ですが秀逸なエディタでおすすめの秀丸エディタ)でpdfの内容を串刺し検索するのもよいですね。pdfgrepというソフトもあって、これを使えばpdfファイルのままでgrepができるそうです。これはまだ使っていません。windows版をダウンロードしてさきほどのbinファイルにコピーしておけば、コマンドプロンプトで使えるのですが、linux版とちがって検索語がハイライトしなかったりしてまだ使いこなせていません。興味のある方は使ってみてください。

註1:圧縮ファイルの解凍には私は7-zipを使っています。たいていの圧縮解凍はこれでできます。
註2:パスの通し方とかは説明しないでpdftotextを使う方法を説明していますので、良く知っている方はパスを通して適当な場所にpdftotextをおいて使ってください。

AntConcの使い方と活用法その1―自分専用の英語論文例文集(コーパス)の作り方

京都でひらかれた大学の同窓会にでかけたりして更新が遅くなりました。京都は快晴で、まだもみじの季節ではなかったですが美しかったです。しかし観光客が多いこと多いこと。スペイン語や中国語、韓国語、さらにはノルウエーの旗を立てた団体もみかけました。

さて、昨年の分子生物学会のランチョンセミナーの中でAntConcというフリーソフトウエアの紹介をしました。英文を書くときに自分専用の例文集を作っておいて、それが簡単に検索できればとても役立ちます。前回紹介したTextClipperで役にたちそうな例文をテキストファイルに集めておいて、AntConcというフリーウエアでコンコーダンス検索してヒットした例文を参考に英語を書く方法を紹介します。もちろん自分の関係分野の論文のpdfをテキストファイルに変換して集めておき、それをAntConcで検索してもいいわけです。pdfをテキスト化するには、pdfをAcrobatなどで開いておいてtextファイル形式で保存するのも一つのやり方ですが、一斉にpdfをテキスト化するならLinuxやWindows、macなどにあるpdftotextといったソフトを使うのが便利です。ウインドウズにもこれが含まれているLooperというソフトがありますのでそれを使うといいでしょう。これについては次回紹介します。

それではAntConcの使い方の解説をはじめます。AntConcはコンコーダンスソフトウエアという種類のソフトウエアで、検索語を入力するとテキストファイルからその単語を拾い出し、文中に含まれるその単語の前後をふくめて表示してくれるソフトです。単語の文中での出現頻度などその他の様々な情報もわかります。まず早稲田大学のLaurence Anthony先生ホームページから自分のパソコンのOS(mac, windows, linux)にあったソフト(無料です)をダウンロードします。ここのリンクをご覧ください。
AntConcのホームページには、YouTubeの解説動画や日本語の解説pdf(バージョン3.2,2の解説ですがとても参考になります)などへのリンクもありますので適宜参照するといいでしょう。
ダウンロードしたファイルは実行ファイルなのでダブルクリックして起動します。詳細な使い方は先生のhelpファイルのpdfがあるのでダウンロードしてみてください。

写真はダブルクリックして起動した直後の画面です。起動時にはConcordanceタブが開いています。 Fileメニューが上にあります。Fileメニューをクリックするとプルダウンメニューが開き、その一番上にあるOpen File(s)を選んで検索したいファイル(複数選択可能です)を読み込みます。(下の図)

複数のファイルを読み込んで串刺し検索もできます。またOpen Filesの下のOpen Dirを選ぶと、フォルダ(あるいはDirectory)内にあるすべてのテキストファイル(とかhtmlファイル)を検索してくれます。こうして必要なファイルを開いてやると以下のような画面になります。
下の写真は私達の論文(AkiyoshiさんのCGGDBデータベースについての論文をpdfからテキストファイルにしたものでcggdb.txtという名称にしました)を開いたところです。
Current Filesというところに検索するファイル名が表示されます。複数選択した時は選択したすべてのファイルが列挙されます。
では検索してみましょう。resultという単語を検索することにします。Search Termの部分にresultといれて検索窓の下にあるStartボタンを押して検索してみましょう。(このとき右にあるwordsにチェックをいれています(下図参照)。単語としてのresultが検索されます。Caseにもチェックをいれると大文字小文字の区別をして検索できますし、Regexにチェックを入れると正規表現(Perlタイプのもの)が検索に利用できます)ヒット数は上のほうのConcordance Hits に表示されます。

6個ヒットしています。注意したいのはWordsにチェックを入れた状態で、resultを検索するとresultsは検索されないことです。Wordsのチェックを外してresultとして検索すると、resultだけでなくresultsもresultedもresultingもひっかかってきます。(下図)

ヒット数が57となっているのがわかると思います。
Concordanceメニュ―では、resultというキーワード(Key Words)が文のコンテクストの中で(In Context)どのように使われているかが表示されています。この表示を略してKWIC表示といいます。結果の表示法は、いろいろ下のメニューで変更可能です。たとえばSearch Window Sizeはデフォルトで50文字(腱索キーワードの前後50文字ずつ)となっていますが、これは増やしたり減らしたりできます。ちょっと表示を左右に広げてみるとよくわかります。

Search Termの検索窓の下のほうにKwic Sortとあるのは、検索結果のソートボタンです。

図ではLevel 1が1R(キーワードresultの右の語でアルファベット順にソート)、Level 2が同じ右の単語の場合は、キーワードの二番目の単語でさらにソートします。それがLevel 2 2Rという部分です。Level 3は三番目の単語でさらにソートとなります。もしresultの左の単語でソートしたいときは、Level 1以下の部分を下向きの矢印ボタンを何回かクリックして、下の図のようにかえて、Sortボタンを押してください。

すると検索キーワードの左の単語で再ソートされますので、resultの前にくる単語がわかります。

次にKWIC画面で表示されている原文をみてみましょう。みたいヒット行の青字で表示されているキーワードをクリックしてみましょう。クリックした文を含む原文がFile Viewタブが開いてそこに表示されます。

Hit Locationという部分の上下の矢印をクリックすると、前や後のresultを含む原文が表示されます。カーソルをFile View画面で動かせるようにしておくと、マウスの中央ホイールをくるくるまわして前後のresultを表視することもできます。

皆さんもご自分でつくったテキストファイルやテキストファイル群をこのソフトで開いて遊んでみてください。大変有用なソフトです。ちょっと長くなったので今回はここで止めます。次回はAntConcのその他の機能と、どうやってpdfからtextファイルを作るかについてpdftotextの使い方を紹介したいと思います。

写真は元寇のとき筥崎宮が避難していた場所を訪れたときのものです。とてもいい天気で気持ちがよかったです。バス停をおりると案内板があって、650mほどのぼりの道を行くと古い社があって記念碑がたっていました。人はだれもいません。一番最後の写真は帰りの川面です。波紋がきらきらと川底に映えてハヤも泳いでいました。このへんはホタルも初夏には見られます。