テキストデータをどんどん蓄積していくソフトの紹介その3―詳しいTextclipperのclipfileツールの使い方です

前に紹介したTextClipperのクリップツールの一つclipfileを作者の吉村隆樹さんがバージョンアップしてくださいました(2018/11/28)。前のバージョンを使っている方は新しいバージョンにしてください。ここからバージョンアップ版をダウンロードして解凍してできたclipfile.ctaファイルをtextclip7962フォルダ中に上書き保存するだけです。以前のバージョンでは保存日時の年号が正しく入らなかったのですが、今回のバージョンアップで2018がちゃんと入るようになりました。吉村さんによると典型的な2000年問題だったそうです。バージョンアップをお願いして数時間で新バージョンを作ってアップロードしてくださいました。吉村さん、どうもありがとうございました。

以下では先日紹介したTextClipperのクリップツールclipfileの使い方をもうすこし詳しく紹介しておきます。
1)まずTextClipperをここからダウンロードしてダウンロードしたzipファイルを解凍してください。解凍してできたフォルダがtextclip7962という名前になります。このフォルダはProgram Filesのフォルダには入れないでください。入れると動きません。このプログラムを使用するには7-zip32.dllが必要です(バックアップ時)のでここから取得してください。

2)ここまでの作業でtextclip7962というフォルダができました。バージョン番号がフォルダ名になっていますね。TextClipper本体はこのフォルダの中にあるtextclip.exeです。これをダブルクリックするとTextClipperが起動します。このソフトの使い方については

http://www.hi-ho.ne.jp/makoto_watanabe/tc/index.html などをみてください。

では次にclipfileというクリップツール(TextClipperの機能拡張のようなものです)をインストールしましょう。これはブラウザにかぎらずMS WordやAcrobat Readerで表示しているpdfファイルなど、任意のソフトで表示しているテキストを選択し、それを規定の名前のテキストファイルTc_txt.txtに次々と保存できるツールです。
一つのテキストファイルに、保存日時と出典、および保存時に追加できる任意のキーワードとともに保存してくれます。新しくクリップしたテキストはもとのテキストファイルの末尾に追加されます。これを使うと、ネットサーフィンで見つけたテキストをキーワード付きでテキストファイルで保存できますので、あとで秀丸など適当なテキストエディタでgrep検索して簡単に探し出すことができます。保存するときに将来検索の時に思いつきそうな、選択したテキストには含まれないキーワードを追加しておけるので、後々の検索時に探しもれが少なくなるのもこのツールの便利な点です。

3)では、clipfileを使えるようにしましょう。
以下のurlからクリップツールのclipfileを選んでダウンロードします。
http://takaki.la.coocan.jp/freesoft/textclipper/
ここをクリックしてダウンロードしてもいいと思います。clipfile.zipがダウンロードできますので、前に紹介した7-Zipなどのソフトで解凍します。解凍してできたclipfile.ctaというファイルを上の2)でできたtextclip7962のフォルダにドラッグして移動させます。これでclipfileを使う準備ができました。

4)TextClipperを起動して、clipfileを使ってみましょう。
まずTextClipperを起動します。

上の図のヘルプの左にある、環境設定を選び、

開いてでてくるメニューでクリップツールキーをAlt+cなど好きなキーの組み合わせに設定します。

これでAlt+Cを押したらクリップツールが動くように設定できました。

5)では、実際にテキストを適当に選んでスクラップブックのようにテキストファイルに保存してみましょう。
まずTextClipperを起動しておいてください。そのあと、ブラウザなどで適当なサイトを訪れて、保存したいテキストを選択し、さっき決めておいたクリップツールキー(Altをおして同時にCを押す)を押します。すると下の画像のようにポップアップメニューが開いて一番上に「TextFileに追加」がありますのでこれを選択します。
するとキーワード入力のポップアップ画面が開きますので、あとで検索に便利なキーワードを入れます。複数入れても構いません。自由に入力しましょう。

保存ボタンをおして完了です。Tc_text.textという名前のファイルに上の選択した部分が出典の一部、日時、キーワードとともに保存されているはずです。

ではうまく保存できたかどうかをtextclip7962フォルダ内にできているTc_txt.textというファイルを開いて確認しましょう。出典、日付、キーワード、クリップしたテキストの順に保存されていたら成功です(下図参照)。

上の例では、私の去年の学会でのランチョンセミナーの講演動画がでているYouTubeのページにあるテキストをクリップしたテキストの後に、今しがたクリップした論文のテキストが追加されています。N型糖鎖、先天性グリコシル化異常症などとあるのは、さきほどつけたキーワードです。その下にクリップしたテキストが保存されているのがわかります。

このように、ちょっと気になったテキストを、どんどんクリップして蓄積しておき、あとで秀丸エディタなどのテキストエディタのgrep検索機能で検索します。grep機能についているタグジャンプ機能を使えば該当するクリップしたテキスト全文のある場所に容易にジャンプすることができます。テキストファイルのサイズが大きくなってきたら、Tc_text.textファイルの名称をTc_text1.txtなどすきな名前に変更します。次にclipfileツールでクリップしたら、自動的にまっさらなTc_txt.txtファイルができてそこに保存されますので、またゼロからクリップがはじめられます。

こうしてできた大量のクリップファイルを一斉に grep検索したら何年にもわたって蓄積したデータを一瞬で検索できて便利です。データはテキストファイルですので、加工も活用もきわめて簡単です。英語論文の例文集の作成、アイデアメモの作成などいろいろな用途につかえるすばらしいツールですので是非活用してみてください。

写真は福岡で撮影したイチョウです。とてもきれいに黄葉しています。秋も深まってきました。

 

AntConcの使い方と活用法その2―自分専用の英語論文例文集(コーパス)の作り方pdftotextの使い方

前回紹介した英語論文用の例文集に使えるAntConcはテキストファイルやhtmlファイルを扱いますが、最も身近な英語の例文集の素材はpdfファイルだと思います。そこで今回は英語の例文集の作成のために重宝する、「pdfファイルをテキストファイルに変換する方法」を紹介します。AcrobatやFoxit Readerなどでpdfを開いて、textファイルとして保存する方法は、pdfファイルが数百、数千ある場合は手作業では対応できません。こんな場合は、Acrobatなどで複数のpdfファイルを一つのpdfファイルに結合してからtextファイルに変換するという方法もありますが、そんなめんどうくさいことをしなくてもpdftotextという無料ソフトを使えば一括で複数のpdfファイルをそれぞれ別のテキストファイルに変換でますので、やってみましょう。

まずpopplerというpdfを扱うプログラミングライブラリ(その中にpdftotextが入っています)をお使いのWindows, Mac, linux用のものを選んでダウンロードしてインストールします。linuxではsudoコマンドでpopplerをダウンロードしてインストールできますし、Mac版もアプリストアからダウンロードできるはずです。私が使っているWindows 10やWindows 7のPCの場合については、ここに詳しいインストールの仕方が書いた記事がでているのを見つけました。大変丁寧に書いてありますのでそのよく読んでインストールしてください。私もこの記事のとおりにインストールして利用しています。

私はCドライブ直下にpoppler-0.68.0というフォルダ(ダウンロードしたPopplerの圧縮ファイルを解凍(解凍ソフトは註1をみてください)してできるフォルダ名のままコピーしただけです)を作り、その直下にあるbinフォルダ(binaryフォルダの意味で、実行ファイルが入っているフォルダのことです)に自分の必要なpdfファイルを集めてテキストファイルに変換しています。shareフォルダの下にはpopplerとrenameしたデータファイル(上述のホームページにあるリンク
https://poppler.freedesktop.org/poppler-data-0.4.9.tar.gz からダウンロードしたpoppler-data-0.4.9.tar.gzファイルを解凍したもの。註1参照)をおいてください。あとは以下のコマンドを記述したバッチファイルをテキストファイルエディタで作ることが必要です。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

このコマンドをテキストファイルエディタにうちこみ、できたファイルに適当な名前(pdf2txt.batとかすきな名前)をつけて保存します。保存のときデフォルトではテキストファイルで保存されれウため、pdf2txt.txtになりますのでファイル名の変更でpdf2txt.batにするか、保存時に.batで保存してください。保存場所はpdftotextのあるフォルダ(上の例ではbinフォルダ)にします。

あとは、変換したいpdfファイルを上のbinフォルダにコピーして、コマンドプロンプトでpdf2txt.batファイルを実行するだけです。日本語のファイルも英語のファイルもともにテキストファイルに変換されます。(invalid font weightというエラーが出るかもしれませんが無視してよいようです。不都合があったら教えてください。)

以下はコマンドプロンプトが初めての人むけの簡単な説明です(註2参照)。

バッチファイルというのはwindowsのコマンドプロンプト(windows7では「すべてのプログラム」の部分をみていくと、アクセサリフォルダの下にあります。windows10では下の図の左端の写真ようにシステムツールの下にあります。)でファイル名を入力してエンターを押すと、ファイル内に書いてあるコマンドを逐次実行するというものです。

矢印のコマンドプロンプトをクリックして起動するとき右クリックで、管理者として実行を選んで起動しておくと管理者としてログインしていないときにおこるトラブルをさけられますので注意してください。

今回のバッチファイルは以下のような内容で動きました。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

意味は、iという変数にpdfのファイル名をいれ、それにpdftotextコマンドを実行してpdfのファイル名(%%i)のついたテキストファイル(%%i,txt)を作るという操作をフォルダ内にあるすべてのpdfファイル(*.pdfというワイルドカード*を使っている部分で、任意のファイル名のpdfファイルを表しています) がなくなるまで一個ずつ繰り返す(for    doの部分)というものです。

コマンドプロンプトを上に説明したように起動すると、黒いバックに白い字の画面が開きます(上の真ん中の図)
自分の今いるディレクトリ(フォルダ)の名前が表示されています。これから目的のpopplerのフォルダを探すとき、たとえばCドライブの直下にpopplerのフォルダがあるなら、コマンドプロンプトでcd ..(cdとうって、ピリオドを二回うちます)というコマンド(これはディレクトリを上に登って行くコマンドです)を何回かうってディレクトリをC:¥>にします。上の図の右端の図。
dirとうつとディレクトリやファイルの一覧が表示されます。
popplerのフォルダへ移りたいのでcd poppくらいまでをタイプしてあとはタブキーを押してください。タブの自動補完機能でcd poppler-0.68.0と自動入力されます。(このタブ補完の機能はlinuxで重宝するのですがWindowsのコマンドプロンプトでも利用できますので活用してください。) enterキーを押すとC:¥poppler-0.68.0>と表示されてディレクトリを移動したのがわかります。ここでdirとうってenterを押すとディレクトリ内のファイルとフォルダが表示されます。プログラムファイルのあるbinのフォルダ(ディレクトリ)があるのを確認してください。cd binとうってenterを押すとbinのディレクトリに移動します。C:¥poppler-0.68.0\binとなっていたら成功です(上の右端の図)。再びdirとうってenterをおします。これでこのbinフォルダ内にあるすべてのファイルとフォルダが表示されます。あとはそこにコピーしてあるバッチファイルpdf2txt.batを実行する(コマンドラインにpdf2txtとうってenterを押す)と、自動的にファイル名のついたtxtファイルができあがります。

こうして一括でpdfファイルをテキストファイルに変換したら、あとはこれらのテキストファイルをAntConcに読み込んでコーパスとして論文を書くときに参照すればいいわけです。

もちろんテキストファイルですから、テキストファイルを一括検索して、検索結果にタグジャンプして参照できるgrepコマンドも使えます。適当な、grepコマンドが使えるエディタ(たとえば有料ですが秀逸なエディタでおすすめの秀丸エディタ)でpdfの内容を串刺し検索するのもよいですね。pdfgrepというソフトもあって、これを使えばpdfファイルのままでgrepができるそうです。これはまだ使っていません。windows版をダウンロードしてさきほどのbinファイルにコピーしておけば、コマンドプロンプトで使えるのですが、linux版とちがって検索語がハイライトしなかったりしてまだ使いこなせていません。興味のある方は使ってみてください。

註1:圧縮ファイルの解凍には私は7-zipを使っています。たいていの圧縮解凍はこれでできます。
註2:パスの通し方とかは説明しないでpdftotextを使う方法を説明していますので、良く知っている方はパスを通して適当な場所にpdftotextをおいて使ってください。

AntConcの使い方と活用法その1―自分専用の英語論文例文集(コーパス)の作り方

京都でひらかれた大学の同窓会にでかけたりして更新が遅くなりました。京都は快晴で、まだもみじの季節ではなかったですが美しかったです。しかし観光客が多いこと多いこと。スペイン語や中国語、韓国語、さらにはノルウエーの旗を立てた団体もみかけました。

さて、昨年の分子生物学会のランチョンセミナーの中でAntConcというフリーソフトウエアの紹介をしました。英文を書くときに自分専用の例文集を作っておいて、それが簡単に検索できればとても役立ちます。前回紹介したTextClipperで役にたちそうな例文をテキストファイルに集めておいて、AntConcというフリーウエアでコンコーダンス検索してヒットした例文を参考に英語を書く方法を紹介します。もちろん自分の関係分野の論文のpdfをテキストファイルに変換して集めておき、それをAntConcで検索してもいいわけです。pdfをテキスト化するには、pdfをAcrobatなどで開いておいてtextファイル形式で保存するのも一つのやり方ですが、一斉にpdfをテキスト化するならLinuxやWindows、macなどにあるpdftotextといったソフトを使うのが便利です。ウインドウズにもこれが含まれているLooperというソフトがありますのでそれを使うといいでしょう。これについては次回紹介します。

それではAntConcの使い方の解説をはじめます。AntConcはコンコーダンスソフトウエアという種類のソフトウエアで、検索語を入力するとテキストファイルからその単語を拾い出し、文中に含まれるその単語の前後をふくめて表示してくれるソフトです。単語の文中での出現頻度などその他の様々な情報もわかります。まず早稲田大学のLaurence Anthony先生ホームページから自分のパソコンのOS(mac, windows, linux)にあったソフト(無料です)をダウンロードします。ここのリンクをご覧ください。
AntConcのホームページには、YouTubeの解説動画や日本語の解説pdf(バージョン3.2,2の解説ですがとても参考になります)などへのリンクもありますので適宜参照するといいでしょう。
ダウンロードしたファイルは実行ファイルなのでダブルクリックして起動します。詳細な使い方は先生のhelpファイルのpdfがあるのでダウンロードしてみてください。

写真はダブルクリックして起動した直後の画面です。起動時にはConcordanceタブが開いています。 Fileメニューが上にあります。Fileメニューをクリックするとプルダウンメニューが開き、その一番上にあるOpen File(s)を選んで検索したいファイル(複数選択可能です)を読み込みます。(下の図)

複数のファイルを読み込んで串刺し検索もできます。またOpen Filesの下のOpen Dirを選ぶと、フォルダ(あるいはDirectory)内にあるすべてのテキストファイル(とかhtmlファイル)を検索してくれます。こうして必要なファイルを開いてやると以下のような画面になります。
下の写真は私達の論文(AkiyoshiさんのCGGDBデータベースについての論文をpdfからテキストファイルにしたものでcggdb.txtという名称にしました)を開いたところです。
Current Filesというところに検索するファイル名が表示されます。複数選択した時は選択したすべてのファイルが列挙されます。
では検索してみましょう。resultという単語を検索することにします。Search Termの部分にresultといれて検索窓の下にあるStartボタンを押して検索してみましょう。(このとき右にあるwordsにチェックをいれています(下図参照)。単語としてのresultが検索されます。Caseにもチェックをいれると大文字小文字の区別をして検索できますし、Regexにチェックを入れると正規表現(Perlタイプのもの)が検索に利用できます)ヒット数は上のほうのConcordance Hits に表示されます。

6個ヒットしています。注意したいのはWordsにチェックを入れた状態で、resultを検索するとresultsは検索されないことです。Wordsのチェックを外してresultとして検索すると、resultだけでなくresultsもresultedもresultingもひっかかってきます。(下図)

ヒット数が57となっているのがわかると思います。
Concordanceメニュ―では、resultというキーワード(Key Words)が文のコンテクストの中で(In Context)どのように使われているかが表示されています。この表示を略してKWIC表示といいます。結果の表示法は、いろいろ下のメニューで変更可能です。たとえばSearch Window Sizeはデフォルトで50文字(腱索キーワードの前後50文字ずつ)となっていますが、これは増やしたり減らしたりできます。ちょっと表示を左右に広げてみるとよくわかります。

Search Termの検索窓の下のほうにKwic Sortとあるのは、検索結果のソートボタンです。

図ではLevel 1が1R(キーワードresultの右の語でアルファベット順にソート)、Level 2が同じ右の単語の場合は、キーワードの二番目の単語でさらにソートします。それがLevel 2 2Rという部分です。Level 3は三番目の単語でさらにソートとなります。もしresultの左の単語でソートしたいときは、Level 1以下の部分を下向きの矢印ボタンを何回かクリックして、下の図のようにかえて、Sortボタンを押してください。

すると検索キーワードの左の単語で再ソートされますので、resultの前にくる単語がわかります。

次にKWIC画面で表示されている原文をみてみましょう。みたいヒット行の青字で表示されているキーワードをクリックしてみましょう。クリックした文を含む原文がFile Viewタブが開いてそこに表示されます。

Hit Locationという部分の上下の矢印をクリックすると、前や後のresultを含む原文が表示されます。カーソルをFile View画面で動かせるようにしておくと、マウスの中央ホイールをくるくるまわして前後のresultを表視することもできます。

皆さんもご自分でつくったテキストファイルやテキストファイル群をこのソフトで開いて遊んでみてください。大変有用なソフトです。ちょっと長くなったので今回はここで止めます。次回はAntConcのその他の機能と、どうやってpdfからtextファイルを作るかについてpdftotextの使い方を紹介したいと思います。

写真は元寇のとき筥崎宮が避難していた場所を訪れたときのものです。とてもいい天気で気持ちがよかったです。バス停をおりると案内板があって、650mほどのぼりの道を行くと古い社があって記念碑がたっていました。人はだれもいません。一番最後の写真は帰りの川面です。波紋がきらきらと川底に映えてハヤも泳いでいました。このへんはホタルも初夏には見られます。

プレプリントサーバーとその活用法の紹介4―最新情報の追加です

このブログではプレプリントサーバーの活用について紹介してきました。いつも多数のアクセスありがとうございます。写真は近所でみかけたくずの花です。秋も深まってきました。

何度もNIHのVideoCastを紹介していますが、数日前に米国のポスドクの現状とポスドクとしての能力、存在感をアピールするのにプレプリントを発表することが薦められるという講演があったので紹介しておきます。Jessica PolkaさんのNIHでの講演で、米国のポスドクの現状、最初のfirst author(筆頭著者)の論文を発表するのに要する期間が、これまでになく長くなっており、論文が少ないので研究費を獲得したり、次の職を得るのに困難を覚えるポスドクが増えているのに対する対策、そして査読する能力をどのように向上させるかなどを扱っている、興味深い講演でした。
講演のスライドはここをクリックするとダウンロードできます。Google documentに保存してあるのでFirefoxではうまくいかないので、Google のブラウザChromeかInternetExplorerでアクセスしてください。青字で閲覧のみとか書いてありますが、スライドはダウンロードできます(開いたページの「ファイル」をクリックして開き、「形式を指定してダウンロード」を選んで、Powerpointやpdfなど好きな形式でダウンロードしてください。講演は高画質でダウンロードできますので、たとえば1240kの高画質でダウンロードして、適当なメディアプレーヤーでみればゆっくり講演を聴講できますのでお試しください。ハイビジョンの高画質のムービーでもみられるメディアプレイヤーとして、私はMPC-BEというフリーソフトを使っています。

JessicaさんはASAPbio(エイサプバイオ)という組織―ASAPbio (Accelerating Science and Publication in biology) is a scientist-driven initiative to promote innovation and transparency in life sciences communication. We are a 501(c)3 nonprofit incorporated in the state of California―に属していてプレプリントの利用を推奨するとともに、ポスドクのキャリアパスについても研究している方です。

講演にもありますが、論文に要求されるデータ量が激増していいます。それで昔は4年の大学院(米国の例)の場合、平均3-4年で筆頭著者の論文first author paperがでたが今では平均4-5年と論文の出版が遅れるようになっているようです。これは論文として出版されるために必要な実験量が昔の倍以上になっていることも原因であり、以下の論文で具体的に実証されています。論文中の実験量は図のパネルの数―つまりFig. 1A, Fig. 1B,. Fig. 1Cなどどある場合のA,B,Cなどの数―を数えてそれにTableの数などを加えて算出してます(註1)。下の論文やこのビデオをみてもらうとデータがありますのでご覧ください。実験量が増えたことで、論文として完成するのに時間がかかり、ポスドクや院生が論文をだすのが遅くなってしまうわけです。これは日本で多い5年プロジェクトなどでも経験しますが、ポスドクや院生や研究者にとって深刻な問題です。それをどうして救うかというのがこの講演の内容です。プレプリントを活用できるというのがこの講演の一つのメッセージです。(註1:私見ですが、さらにグラフの場合、統計処理するためサンプルのサイズN=30とかになることがよくありますので、一つのパネルといってもそこには本当に多数の実験が繰り返されている場合があり、これをカウントするともっと実験量が増えると思います)。

Accelerating scientific publication in biology
Ronald D. Vale

プレプリントのメリットは、いろいろあります。
メリットその1) 去年あたりから、グラントの申請や業績報告書にプレプリントを掲載することができる組織が激増しています。つまり就職活動や研究報告、新しい研究費の申請のときに、業績としてプレプリントが使えるようになっているわけです。
日本の方に関係あるところでは
Human Frontiers Science Program (December 12, 2016)でもプレプリントが利用できます。“The Board of Trustees of the International Human Frontier Science Program Organization (HFSPO) has decided that for competitions starting in calendar year 2017, applicants may list preprint articles in the publication section of HFSP proposals. Current HFSP awardees are also permitted to cite publications which are deposited in freely available preprint repositories in interim and final reports to the Organization.”

といった具合です。Wellcome Trust , MRCやNIH, HMMIなど大手のグラント母体もそういう方針になっています。これもASAPbioのページにリストがあります。

プレプリントについては以下のページ(ここをクリック)がまとまっています。またpreprintについて投稿してみた人の経験がこのリンクに動画と画像で紹介されています。

プレプリントサーバーは以前にも紹介しましたが、最新のプレプリントサーバーのリストがありますのでご覧ください。Research Preprints:ServerListというページです。

ここにリンクがあります。

メリットその2) プレプリントを公開すると学会の講演のように、研究者の存在感を示すことができます。

メリットその3) フィートバックがくるので論文を改善できます。bioRxivの場合は10%ほどにコメントがつくようです。他の人にコメントをみられたくないという人も多くて、そんな人は著者にemailしてきたり、twitterやFacebookなどのSNSでコメントをくれるようです。プレプリントサーバーのコメントは公開前にチェックが入っているので炎上とかなないようです。

メリットその4) 雑誌の編集者はプレプリントをみていますので、プレプリントをみてうちの雑誌に投稿してくださいといってくることinvitationも結構あるそうです。(PLos GeneticsやProc. Royal Society Bなど)

メリットその5) 研究の早い段階でプレプリントをみて連絡してくる共同研究者が見かる例も多いそうです。

メリットその6) いつどんな研究をしたかを、公開のプレプリントサーバーに記録としてのこせる(doiもプレプリントに付与されますし、プレプリントの引用を許している雑誌も増えています)上に、バージョン管理もできる。

メリットその7) 就職や研究費(グラント)申請の時、研究者としての生産性を示すことができる。これは上にも述べました。今までは論文を投稿してからアクセプトされるまでは業績や研究成果に載せられないことが多かったのですが、プレプリントを業績として認める組織が増えているので大きなメリットです。

メリットその7) そしてなによりも発見を加速させることができるのが最大のメリットでしょう。

では不安点はというと:
I’m going to get scooped!というのが最大の不安なのではないでしょうか。しかしこれは簡単にはやれないと思われます。論文の内容をプレプリントでみて、それをもとにもっとよい論文を書くというのですが、これをやるのはほぼ不可能だと思います。アイデアとか実験とかはプレプリントに書かれており、投稿日もバージョンも公開されているので剽窃は困難です。アイデアや方法、結果のクレジットを早々ととって、研究成果を共有するメリットのほうがいまや大きくなってきているようです。物理とかコンピュータサイエンスの分野でのプレプリントの経験から、scoopするのが困難でリスクをともなうことは明らかなことだと思います。その他の考える不安点も講演で議論されていますのでご覧ください。

どの雑誌がプレプリントへの投稿前の掲載を許可しているかは、ここをごらんください。

またプレプリントの雑誌会というのもネット上にいろいろあるのでその紹介やレフリーのコメントなどを公開する動きが加速しているという話も講演にあります。

プレプリントサーバーとその活用法の紹介―bioRxivの利用法3

プレプリントサーバーbioRxivの利用法の第3回です。前回紹介したように大学や大学院、そして研究室での論文ゼミでbioRxivを活用しているところが増えています。出版される前に論文を読めるというメリットの他に、その論文を査読(レフリーをする)することを体験できますし、その論文がその後どのように印刷出版されるかをたどっていくと、レフリーとのやりとりなども追跡できるので研究者の卵にもとても勉強になります。以下のサイトをみるととても役立つと思いますのでご覧ください。

まず一番のおすすめは、preLights A というサイトです。これはプレプリントのハイライトサービスで、雑誌Journal of Cell ScienceとかDevelopmentとかを出版しているThe Company of Biologistsがスポンサーになっているサービスです。生物関係のおすすめのプレプリントを教えてくれるサービスですので是非使ってください。今日みてみるとテントウムシの模様のできるメカニズムのゲノムからの解明などの研究がハイライトされています。ハイライトの一覧は、ここにハイライトされているプレプリントへのリンクがありますのでブックマークしてください。

biOverlay はプレプリントサーバーにある論文を、独自に(勝手に)選んで勝手に査読してその結果を公開しています。こういうのをoverlay journalというのだそうです。査読の仕方の勉強にもなりそうですね。ご覧ください。

Peer Community Inというのも面白いアイデアです。著者はプレプリントサーバに原稿をアップロードした後、こちらのサイトにも原稿を読んでもらうよう依頼します。こちらのサイトが原稿を独自に査読にまわすかどうか決めて、査読にまわされれば匿名のレフリーが査読します。査読がOKになったらこのサイトで推薦の辞つきで公開されるというわけです。これで著者が得心したら論文としてdoiもわりふられて業績になるという仕組みです。著者がちゃんとしたjournalに投稿するのも問題ありません(このへんの仕組みの図と詳しい説明がここにあります)。推薦の辞はプレプリントだけではなく、すでに公開されている論文についても書かれることがあるようです。
投稿できる分野は進化生物学、生態学、古生物学となっています。以下にリンクがあります。

 Peer Community in Evolutionary Biology, Peer Community in Ecology or Peer Community in Paleontology

写真は、散歩の途中で写真をとってくれと、せがんでいるように声をかけてきたスズメの子です。人を怖がらず、写真をとっている間ずっとポーズしていろんな方向をむいたりしてくれていました。数日前からヒグラシも鳴きはじめ季節が進んでいます。

 

 

プレプリントサーバーを利用した論文紹介ゼミのすすめ―bioRxivの利用法2

土曜日にサイトのテーマを携帯対応のものに変えました。携帯でアクセスする方は、携帯を横にしてみてもらうと見やすいと思います。

If you want to be one year behind, don’t read bioRxiv– Jeff Leek

今日は5月23日のプレプリントサーバーの紹介に続く記事です。上の言葉は生物統計学などで多くの論文を出しているJeff Leek先生の言葉だそうです。論文投稿前のプレプリントをプレプリントサーバーに投稿していろんな人に読んでもらい、同時に引用できるようなdoiも取得した上で改訂して適当な雑誌に投稿するという人が増えています。また大学や研究室の論文セミナーで、雑誌にでた論文を選ぶのではなく、プレプリントサーバーにアップロードされた論文を選んで紹介するという新しいスタイルの論文紹介ゼミも盛んになっているようです。雑誌に出る論文より一年以上早く最新の成果を把握できることも多いので、PubMed検索だけではなく、プレプリントサーバーの検索も習慣にすることをお奨めします。

論文紹介ゼミでは、プレプリントサーバーにアップロードされた論文を読んで紹介し、論文のレフリー(査読者)になったつもりで内容を批判し吟味します。皆で検討した結果を著者にメールなどで連絡して原稿の改善に役立ててもらうというわけです。
こうしたプレプリントのゼミをやると、研究生活の早い時期に論文のレフリーの役割を学べます。著者への連絡がとても役立ったということで、論文を雑誌に投稿するときに謝辞に名前を書いてもらった学生もいるそうです。
今までレフリーになるのは、博士課程の学生で先生のお手伝いで協力するとか、査読を依頼されたときにレフリーの経験の多い先生に教えてもらうなどしかチャンスがなかったのですが、プレプリントサーバーで原稿が読めるようになったおかげで、学部学生や修士の学生でもレフリーの勉強ができるようになったわけです。米国ではプレプリントをつかったレフリーの練習も盛んになっているとのことです。皆さんも是非お試しください。これはpreprint reviewといいますが、これについてはこのリンクも参考になります。

線虫C. elegansの最近のプレプリントで面白そうなのにこんなのがあります。 配偶子幹細胞ニッチについてのKimbleラボの論文と、ノーベル賞をとったMelloさんのところのCRISPRを用いたゲノム編集の新手法の論文です。

C. elegans germ cells divide and differentiate along a folded epithelium

Hannah S Seidel, Tilmira A Smith, Jessica K Evans, Jarred Q Stamper, Thomas G Mast, Judith Kimble

PubMed以外の便利な論文の探し方―ナショナルバイオリソースプロジェクトでも使っているサイトTextpressoの使い方1

近畿地方の皆様、昨日の地震の被害をお見舞い申し上げます。余震も続いていて昨夜も二回ほど激しい揺れがあったそうですが、どうぞ皆様お疲れがでませんように。
私達のところでも熊本地震や以前の玄海地震など、大きな地震とその後の余震では、夜もぐっすり寝られず疲れたのを思い出します。熊本のときは、緊急地震速報が町内のスピーカーから深夜に何度もながれて特に疲れました。玄海地震以降、私は実は今でも夜寝る時には、ポシェットに財布や携帯、手帳をまとめていれておいてLEDの懐中電灯をポシェットにつきさして寝ています。玄海地震ではあと数秒揺れが続いたら家が倒壊するなと思ったのを思いだします。

阪大でも建物にひびがはいっているそうですが、九大でも玄海地震のときは建物にひびが入ったり、医学部のサンプルが壊れたり、理学部の建物の間の渡り廊下がずれたりと、ひどい被害をうけました。その後、本棚から本がとびでたり、パソコンが揺れで落ちたりしないようにと対策をやかましくとるように指導され建物の補強などもすすみましたので、すこしは耐震性は向上したと思います。まだガスや水道がとまっているところも多いそうですし、大学も休校しているところが多いとのことです。どうぞ体力温存第一でお過ごしください。
さて今日は簡単に、文献検索サービスのTextpressoを紹介しておきます。

PubMed以外の論文検索法 Textpressoの使い方1

極めて精度の高い論文検索サービスにTextpressoがあります(このサイトは2018年末には廃止される予定で、最近改良されてTextpresso Centralになっています。) とりあえずは古い方のサイトをいろいろ使ってみることをお奨めします。リンク集にも線虫版のTextpressoは紹介してありますが、酵母やショウジョウバエ、ゼブラフィッシュ、マウス、カエルその他いろいろな文献を検索することができてとても便利です。日本が世界に誇るナショナルバイオリソースプロジェクト(パンフレットのリンクはここ)の一つであるナショナルバイオリソースプロジェクト線虫(遺伝子破壊株だけでなくバランサーやCreのラインなども続々提供中)では、取得した遺伝子破壊株がどのように活用されているかを調査する目的で、論文をTetpressoで検索して把握しています。私も今、論文を書いていますがこのサービスを活用してデータのチェックやっています。 Textpresso Centralの方の使い方は後日このサイトで紹介しますのでお楽しみに。(写真は今朝道端に咲いていたツユクサです)

生命科学系論文の探し方―PubMedの定期的検索

以前、PubMedの使い方について書きました。そこでふれていなかった一定の検索キーワードを決めておいて、検索を毎日定期的に行う方法について研究室内専用のホームページに書いていたものをアップデートして掲載しておきます。皆さんも自分のキーワードを組み合わせて定期的に論文検索をしてみてください。

PubMedのデイリー検索の設定法:
PubMedの文献データベースに、同じ検索式で毎日検索をかけて新しい論文を教えてくれるサービスの設定方法を説明します。まだやっていない人は試して下さい。

1) まず各自の利用しているブラウザでRSS(サイトのアップデート情報などを提供するサービス)を受信できるように設定してください。Firefoxの最新版を使う場合は、RSS リーダーの機能拡張(アドオン)である「Brief」をいれておいてください。(Brief以外の各自のお好みの機能拡張を使っても良いです。私はFirefox ESRをまだ使っているので古いSageという機能拡張を使っています。CromeやIEなど別のブラウザでは適当にお好みのRSS readerを設定してください。)

以下は最新版のFirefox quantum での、Briefのインストールの仕方です。Firefoxの一番上にあるメニューからツールを選び、その中からアドオンを選び、「機能拡張」を選んで右上の検索画面にBriefといれて検索します。

下図のようにBriefが見つかったら、Briefのアイコンをクリック。
下図のような画面が出ますので「+Firefoxへ追加」ボタンをおして、インストールすると使えるようになります。
上手くいくと、右上にBriefのアイコン(下図の矢印で示した音波のようなマーク)が表示されます。
これでBriefの利用準備は完了です。

2) 次に検索してRSSフィードを登録しましょう。
まず文献検索データベースのPubMedにいって、自分が毎日検索したいキーワードを並べた検索式を検索窓に入れて検索を行います。
たとえば、elegans AND (glyco OR sugar OR transferase OR proteoglycan OR fatty OR fat OR division OR meiotic OR meiosis OR lipid OR sphingo) AND 2003[EDAT] : 2018[EDAT]とすると、2003年から2018年までの論文で elegansを含みかつ以下のどれかのキーワード(glyco またはsugarまたはtransferase またはproteoglycanまたはetc etc)を含むものが検索されます。各自、自分にあったキーワードに変えてみてください。検索式内のANDとORと「かっこ」をうまく使うと検索式を自分用にカスタマイズできます。
検索式を入力してSearchボタンを押して検索が終わると、結果がでてきます(下図)。

 

検索結果のページの上のほうにある検索式をいれた検索窓の下(上図で指さしマークを付けてある部分)にCreate RSSと書いてあります。ここをクリックすると、下図のようなポップアップがでてきます。
結果の表示数を選ぶ箱(Number of items displayed)があって、

Feed name:の部分に検索式が書いてあるのが見えるでしょう。表示を15以上にしたければプルダウンで数を増やしておきます。OKならCREATE RSSボタンを押すとRSS feedのポップアップができます(下図)。

 

次にこのポップアップのXMLと書いてあるボタンをクリックします。開いたページ(下図)で、真ん中よりすこし右くらいにあるBriefのマークをクリックするか、それが見あたらなければ真ん中の「」の記号を図のようにクリックしてプルダウンメニューの下の方に表示されるBriefのマーク(下図の矢印のSubscribe―購読―とある部分のマーク)をクリックします。
これでRSSフィードがBriefに追加されました。うまく追加されると、一番右にあるBrief マーク(下図の矢印)に数字が入ったら成功です。
3) では、サイトの内容をみてみましょう。まず上の図の数字付のBrief マークをクリックすると、Briefの操作パネルが表示されます(下図)。

図はヘッドライン表示となっており、PubMedの最初の15件のヒットが論文の表題で表示されています。アブストラクトなど詳しいことを知りたいときは、図の矢印で示した、長方形が二つ重なっているマークをクリックすると、アブストラクトも含めて表示されます。
これで毎日、自動でBriefが検索式をPubMedにアクセスして新しい論文があれば教えてくれます。フィードはブラウザ起動中は自動でチェックされ、チェックする間隔は分、時間単位で決めることができます(設定メニュー)。

それから、もっと別の検索式を設定して、同時に2つ以上のPubMed検索を毎日行うことも簡単です。是非、まだやっていない方はお試しください。

最新の論文を探してみよう プレプリントサーバー bioRxivの利用法1

最新の論文を探すのには、PubMedやGoogle検索を使う方法が良く知られています。今回は、投稿前の論文、査読中の論文の探し方を紹介します。

論文を投稿する前に、完成した論文をプレプリントのかたちで公開サーバーにアップロードして皆に読んでもらい、プライオリティの取得もかねて意見を求めるというのは、昔から物理などで盛んな ならわしでした。現在では生命科学の論文用のプレプリントサーバーbioRxiv(バイオアーカイブと読みます)が盛んに利用されています。このサーバーを検索すれば最新の査読されていない またはここに公開と同時に査読中の論文を読むことができます。

bioRxivはCold Spring Harbor Laboratoryが維持しているプレプリントサーバーで、投稿すると内容をチェックした上で(非科学的な内容ではないか、テロに用いられるような危険な知識を提供するものではないか、剽窃した内容でないかなどのチェックです。査読してくれるわけではありません)翌日には公開されます。利用は無料です。

このサーバーはほとんどの著名な生命科学系の学術雑誌(ここに今日、ダウンロードした提携雑誌のリストがあります。投稿前に必ずこちらhttps://www.biorxiv.org/about-biorxivで確認してください。)と提携しており、bioRxivに いったん投稿しておけば、提携雑誌へ投稿する際は自動的にデータがその雑誌に移動できるようになっていて、投稿時にもう一回著者のリストを入れたりする手間はないのでおすすめのサービスです。投稿してしまえば引用可能になりますので、取り下げることはできません。利用法としては、査読のある雑誌への投稿と同時にこのサービスで投稿原稿を公開したり、bioRxivのサーバーで公開して皆にすぐ読んでもらった後で、査読のある雑誌に投稿することができます。またbioRxivに公開した後、コメントなどを参考に改訂してバージョンアップした後、投稿することも可能です。下の紹介動画をご覧ください。

私の良く知っている線虫の研究者、Josh Bembenekさんも盛んにこのサービスを利用しており、最近もこんな論文のプレプリントを公開しています。
https://www.biorxiv.org/content/early/2018/05/10/319657

線虫の細胞系譜にそって細胞質分裂の仕方が変化するという面白い内容です。

皆さんもbioRxivの検索画面で自分の好きなキーワードでいろいろ検索してプリプリントを探してみてください。最新の研究成果がいろいろ見つかると思います。

多くの雑誌ではプレプリントサーバーにアップロードして公開した論文は、投稿前のもの
prior to submissionとみなされます。中には投稿前にbioRxivでの公開を許さない雑誌もありますので、投稿前に十分調べてから投稿してください。Oxford Journal系の雑誌のように、公開プレプリントサーバーに公開しているものが投稿後にアクセプトされて掲載されるときには、すでに公開していたのだからといって、オープンアクセスの料金を払わねばならないところもありますので注意してください。各雑誌のポリシーは
https://en.wikipedia.org/wiki/List_of_academic_journals_by_preprint_policy
などにまとまっています。

他の分野でのプレプリントサーバーには、物理関係(経済分野も含む)のものや、は科学哲学関係のものなどもありますので、興味ある方は訪問してみてください。

ライフサイエンス辞書のコーパスを使った英語の書き方

ライフサイエンス辞書Life Science Dictionaryのサイトで、コーパス (corpus)を検索できます。先日紹介した広島大の河本健先生のページにある動画では、コーパス検索のデフォルトとしては、詳細検索を使うのがよいとのことでした。今回お伝えしたいのは、次の点です。

ひょっとしたらコーパス corpusの検索窓に、いつも一つの単語だけをいれていませんか?それはもったいないです!

コーパスの検索窓には、複数の単語の並びをいれることができます。たとえば、今論文を書いていて、 「GPIアンカー型タンパク質は、アーキアからヒトまで保存されいる」という英文が書きたいとします。アーキア(archaea)というのは古細菌ともいいます。
「アーキアからヒトまで保存されている」というのはどう書いたらいいでしょう?

まずライフサイエンス辞書のページのコーパスタブを開きます。でフルトの簡単検索画面がでますので、それにfrom archaeaといれてみましょう。

詳細検索をクリックして、表示数などを調整します。
最大1000 行表示にして、設定を記憶。冠詞や前置詞を文章内のリストに含めるなどにしています。
検索ボタンを押すと、from archaeaの部分の前後が表示されます。(表示されないときは、スペリングミスか、あるいは入力した句を含むコンコーダンスの例がみあたらないことを示します。たとえばfrom archeaとしてみてください。archeaでも正しいはずですが、用例がありません。)

上の図のコンコーダンスをみていくと、from archaea to humansという用例があるのがわかります。保存されているconservedという単語を使っている用例がないかなぁ、と詳しくみていくと(conservedという単語を画面で検索しただけですが)、ありました!
35番の文に古細菌からヒトまで保存されているという用例がでていました。

あとは、文の番号35をクリックすると、新しいタブが開いてこのように

PubMedの画面がでてきて要約Abstractの部分にある例文が容易にみつけられます(ブラウザ画面でhumansなどの単語で検索してハイライトさせてみました)。

これで目的の作文ができました。
こんな感じで、コーパスの検索窓にいろんな句を入力して用例を探すと、英文作成がずいぶんはかどりますので試してみてください。
コーパスはphrase 検索でつかわないともったいないです。