ゲノム、トランスクリプトーム、プロテオームにグリコーム‥‥オームの話

OBS studioの使い方について少し補足しましたのでご覧ください。録画設定には自動構成ウイザードを使うと録画失敗が少なくなりますよという内容です。

さて今日はゲノム、トランスクリプトーム、グリコーム、コネクトームなどオームのついた言葉の解説です。簡単にいえば、オームは数学の記号のΣ(シグマ)のようなものと考えてください。genomeというのはgeneの総和Σです。transcriptomeというは、transcriptの総和Σです。connectomeというのは、神経どおしの結合様式の総和Σです。またglycomeというのは生物や組織、器官、細胞などの糖鎖修飾状態ののすべてという意味になります。
つまり、-omeという接尾語の前についている単語が表すものを全部もれなくあつめたものが、なんとか-omeの意味となります。genomeはgeneを全部集めたものの意味になりますから、発音もゲノムではなくて、ジーンの総和なのでジーノムとなります。プロテオームというのは、proteinの総和ですから、発現しているタンパク質のすべての集合の意味である、といった具合です。接尾辞の-omeについてOxford English Dictionary(OED)をひいてみると(九州大学図書館が契約しています)、以下の引用のように解説してあります。
3. Cell Biology and Molecular Biology. Forming nouns with the sense ‘all of the specified constituents of a cell, considered collectively or in total’
とあります。

genomeをOEDでひいてみると、1920年頃のドイツのでの用例からはじまり、もとは染色体のハプロイドの全体を意味しており、後にcomplete set of genes of an organism, species,organelle, etc.を意味するようになったとあります。以下引用です。

 Originally: a complete haploid set of chromosomes (of an organism, species, or    gamete). Later also:  the complete set of genes of an organism, species, organelle,   etc.
所属機関でOxford English Dictionaryを契約している方はご覧ください。
(-omeがΣの意味だというのは、以前、EMBLのバイオインフォマティクスの専門家が九大で講義されたときに習いました。)

写真の水仙は今朝撮影しました。福岡はあたたかで、梅も満開になっています。

おすすめ本―量子生物学その2

最近 内田老鶴圃から出版された本で、「計算分子生物学 物質科学からのアプローチ(田中成典 著)」という本があります。この本は、これから量子生物学をやろうという人にお勧めです。私は専門ではないので「たぶんおすすめです‥‥」が正確ですが、一度手に取ってみてはいかがでしょうか。雑誌 実験医学に著者の田中先生は「量子生命科学の展望」という総説を書いておられます。 実験医学 Vol.35 No.14(9月号)2017発行。九州大学などご自分の学校などでメディカルオンラインが使える人は、メディカルオンラインからpdfをダウンロードすることができますのでダウンロードして是非ご覧ください。図書館にバックナンバーがあればそれをみることもできますね。とてもわかりやすい解説で、上の本を読み始めるのにも最適な総説だと思います。量子生物学とか量子生命科学とよばれる研究領域についてのすぐれた解説です。

量子生物学というのは結構古くから研究が試みられていました。ビタミンCの発見でノーベル賞を授賞し、その後、アクチンとミオシンで筋肉が収縮することを発見し、さらにクレブスサイクルの基礎になる発見をしたハンガリー出身の生化学者Albert Szent-Györgyiは、量子生化学の重要性をはやくからのべていた科学者です。DNAやタンパク質が半導体になるとか、いろいろ面白いアイデアをだしておられました。日本の筋肉の研究は世界のトップを走っていましたが多くの日本人研究者に感銘を与えたのは彼の筋収縮の本だったときいています。私が高校生のころ、来日してNHKで講演会が放送されていたのを観ました。その講演会の内容は「狂ったサル」(サイマル双書)という題名の本に収録されていて今も古書店から入手可能ですので是非ご覧ください。私は講演会をテレビで見て、興味を持ち、その後、彼の書いたIntroduction to a Submolecular Biologyという本の邦訳「分子生物学入門―電子レベルからみた生物学(廣川書店)」などの本を読んで、量子生物学も面白そうと思い京大で行われていた分子軌道法講習会などにも参加して勉強していました。
以前の記事に書きましたが、東京で開催された国際発生生物学会のオプショナルツアーに同行させていただいたとき、私がセントジェルジ博士の仕事が魅力的だと話したところ、一緒にツアーに参加されていた発生生物学者のご夫妻からセントジェルジ博士は、科学の業績でも偉大だが、人間としても偉大な方だという話を聞きました。反戦・平和にもつくした方でした。

大学院生のとき、ちょうど京都で開催された国際量子化学会に参加してサテライトミーティングにも参加して量子生物学の講演をいっぱいきいて、Szent-Györgyiと共同研究しているハンガリーのLadik先生や京都府立医科大学の品川嘉也先生ご夫妻などに懇親会でいろいろ質問していたのを思い出します。この国際学会は京都大学の福井謙一先生が会長で主催されたのでしたが、会場では参加者の大先生たちの「これで福井謙一先生のノーベル賞は確実ですなぁ」という会話を耳にし、ほどなく福井先生がノーベル化学賞を受賞されたのも印象にのこる経験でした。当時はまだまだ量子生物学は始まったばかりで研究は困難と判断しましたが、ここ数年、分子生物学会でもワークショップが開かれるようになったのに象徴されるように、ようやく開花し始めたように思われます。

写真は国際宇宙ステーションISS「きぼう」が先日1月22日に福岡上空を通過した時のものです。翌日を含めて2日続けて夕方に通過がみられました。皆さんの近所で通過をみるにはJAXAの「きぼう」を見ようのホームページをごらんください。場所を選ぶと観測できる日付などが表示されますので、日付をクリックすると空のどのあたりを飛行するかも表示されます。以前に紹介した天文ソフトStellariumでもISSの軌道を表示できますので、どのあたりを通過するかをあらかじめStellariumで確認してから観察にでかけると間違いがありません。詳しくは後日書きます。写真はiphoneでとった写真で、左の電線の交差しているあたりの光点が「きぼう」です。とてもあかるくすーっと高速に空をよこぎっていきます。二枚目の写真では右の屋根に近い光点が「きぼう」です。

画面、動画、テキストなどデータをクリップするソフトの紹介―その2 OBS studioの使い方

デスクトップでの操作の記録や、ビデオデータの記録方法―OBS studioの使い方

(2019/2/05に追記した部分は青字で表示してあります。参考にしてください。)
勉強や研究をしているとデータベースの使い方を説明する時にマウスカーソルの動きやクリックの様子などをビデオで記録して見せたいときがよくあります。また講演会などでストリーミング放送されているものなどを記録しておきたいこともあると思います。こんな時にはいろいろ有料のスクリーンレコーダーというジャンルのソフトウエアがあるのですが、インストールするときに使用許諾がいろいろ書いてあって、このソフト、信用できるのか?裏で妙なことをしていないのか?などと不透明な部分もあって、使用に不安を覚えます。前に名前だけ紹介しましたが、OBS studio というオープンソースの無料のソフト(Windows, Mac, Linux対応版があります)を使えば無料で使えて、わりに手軽に作業ができます。OBSはOpen Broadcaster Softwareの略です。
OBS Studio – Free and open source software for live streaming and screen recordingと題して、Githubにソースコードも公開されています
ゲームの画面を録画してYouTubeなどにアップロードするために良く使われているソフトですが、十分高解像度で画面の動きなどを逐一記録できるソフトです。ゲームをやる人のための日本語の解説は多いのですが、あまりデスクトップやウインドウの録画についての日本語の解説がないみたいですので、簡単に紹介したいと思います

OBS Studioのソフトのインストール:
https://obsproject.com/ja/download
からLinux, Mac, Windows版をダウンロードしてインストールします。私はwindows10 なのでWindows版の解説となりますが、他のOSでも大差ないはずです。

ページのウインドウズ、マック、リナックスのロゴをクリックすると右下にダウンロードインストーラが表示されるのでクリックしてダウンロードします。インストールするときにゲームの記録画面の配信モードにするか、単に録画だけにするかと聞いてきますので録画だけにするのがいいと思います。また管理者モードで実行するように設定できると思うので、そのように設定します。言語には日本語を選ぶといいでしょう。メニューなどすべて日本語になります。

ウインドウを録画してみよう:
インストールして起動すると下のギャラリーの一行目、一番左の図のような画面になります。(ギャラリーは、一番上の行の左から右へと図をみて、次は下の行にうつって左から右へとみてください。)中央の黒い枠の部分に表示されている中身が録画されます。この枠内にブラウザの画面とかデスクトップとかを表示し、録画したい部分をaltキーを押しながら枠の周りの囲み線をドラッグして選択します。選択がおわったら、shiftキーを押しながらドラッグして枠内にぴったりはいるようにしたら録画準備完了です。これから以下に詳しく説明します。

ウインドウ画面の録画をやってみましょう。まずFirefoxなどのブラウザの画面からキャプチャしてみましょう。Firefoxなどを先に起動してキャプチャしたい画面を表示しておいてください。

つぎにOBS studioを起動します。ウインドウキャプチャによる録画にはシーン、ソース、ミキサー、シーントランジション、コントロールとある下のほうの画面から、ソースの部分でプラスの記号をクリックします(ギャラリーの一行目左の図)。

するとウインドウキャプチャ、ゲームキャプチャなどがならぶプルダウンメニューがでますので(ギャラリー一行目真ん中の図)、ウインドウキャプチャを選んでみてください(一行目左から真ん中そして右の図)。ウインドウキャプチャのプロパティという画面がでて(二行目左の図)、カーソルをキャプチャするかどうかなどを設定できます。OKを押してとじてください(二行目真ん中の図)。Firefoxなどが起動していると、黒い画面の中にFirefoxのウインドウが表示されると思います。

黒い背景画面にうまく録画したい場面が全部がはいっていないと思います(二行目右の図)。黒い背景画面いっぱいの部分が録画されるので、録画する画面(クリックすると四隅と上下左右の各辺の中央に赤い丸印のある部分がハイライトされますのでその画面)を黒い画面いっぱいにあわせましょう。Firefoxの表示画面を選択する方法を例に紹介します。

表示されているFirefoxの画面をクリックして、画面の四隅と、左右、上下の辺の中央にある赤い丸を押します(二行目右から三行目左の図)。この赤丸の辺で囲まれた領域が現在録画されるようになっている範囲です。これを広げて全部が入るようにします。

Altボタンをおしながら赤丸がついている画面の赤丸をドラッグすると、記録したい画面を調節することができて、録画範囲を上下左右に広くしたり、狭くしたりして変更することができます。記録したい画面が決定できたら、altキーを離し、今度はshiftキーを押しながらドラッグして、選択した録画範囲の画面を後ろの黒い画面の隅に移動します(三行目左と真ん中の図)。大きすぎて黒い画面からはみだしていたら、右隅の赤丸を選択して、shiftキーを押しながらドラッグしてやると小さくできます。右隅の赤丸をクリックして、 shiftキーを押しながらドラッグして、一番大きな黒枠のなか(この部分が録画されます)にぴったり録画したい画面があてはまるように調節します(三行目右の図)。

あとは録画条件を次に説明するように設定し、録画ボタンをおすと録画開始です。録画開始と終了をたとえばウインドウズキーぷらすF12とかにきめることも設定でできますので、ボタンをおさずにキーコンビネーションで録画することも可能です。

OBS studioの録画条件の設定
配信をしないので以下では配信の設定は行いません。必要なら設定してみてください。
では録画条件の設定法を解説します。

一番簡単な録画条件の設定法を紹介します(2019年2月5日追記)
ファイル、編集、表示などと並んでいる項目メニューから、ツールを選びます。プルダウンメニューが開き、一番上に自動校正ウイザードというのがありますのでこれを選んでください。
デフォルトでは「配信のために最適化し、録画は二次的なものにする」にチェックがはいっています。チェックを外して「録画のために最適化し、配信はしない」にチェックを入れてください。次へをクリックすると、映像設定メニューがでてきて、基本(キャンバス)解像度―現在の値を使用というプルダウンメニュー、そしてFPS―60または30のいずれか、可能なら60を優先というメニューがでます、これらは変えてもいいですが普通はこのままで、次へを押します。するとテストがはじまって、プログラムがあなたのパソコンに最適の設定を選んでくれます。録画エンコードとか、品質などが選ばれて表示されますので設定を適用のボタンを押して終了です。この自動校正ウイザードを使えば、一番録画失敗の少ない設定になるのでおすすめです。自分でいろいろ設定したい人は以下もご覧ください。録画したムービーをどこに保存するかや、録画フォーマットなどは以下を読んで設定してください。(2019年2月5日追記終了)

手動での録画条件の設定方法;
ファイル、編集、表示…などと並んでいるメニューから、
ファイル→設定→出力とすすんで、出力モードをプルダウンで「詳細」にします。
左から配信、録画、音声、リプレイバッファーというタブがありますので、録画を選びます。
種別は標準
録画ファイルのパスは、できた録画ファイルをいれるフォルダの場所を決める部分です。右の参照ボタンなどを使って、自分の好きなフォルダを選んで設定します。
録画フォーマットは プルダウンからいろいろ選べますが、私が試行錯誤した結果は、ts やmkvがおすすめです。(ほかに動画の形式としてはflv,mp4, mov,m3u8が選べます。flvがデフォルトになっています。) 動画の形式ではmp4やmkvなども試しましたが、私のパソコンでは、録画してできたファイルを再生すると うまく録画できておらず、音声は進むのに画面が止まったままの部分があちこちにできてしまうこともありました。私のパソコンで試した時は、ts形式を選ぶとCPUへの負担が少なくなるのでエラーが回避できました。mp4などでエラーがでるときは試してください。たしかOBS Studioはマルチプロセッサーを利用していないはずです。できあがったtsファイルやmkvファイル、flvファイル、mp4ファイル、movファイルなどは前に紹介した動画プレイヤーのMPC-BE x64で再生可能です。

以下は私の使っている録画の部分の設定です。


録画フォーマットはts、
エンコーダは私はQuickSync H.264を選んでいます。プルダウンメニューで表示される
(ストリームエンコーダを使用)(QuickSync H.264), x264などから素材に応じて選択します。利用できるハードウエアエンコーダがパソコンにないときはストリームエンコーダとx264しか表示されません。
出力をリスケールするにはチェックはいれていません。
カスタムマルチプレクサ―の設定もなし。

ターゲットの使用法は、qualityをプルダウンから選択。(balanced,speedも選べますのでうまく録画できないときは試してみてください。自動設定では私のパソコンではbalancedが選ばれていました―2019/2/05追記)
プロファイルはbaselineにしています。他にhigh, mainも選べます。
キーフレーム間隔は3、
非同期深度は4、
レート制御はCBR、
ビットレートは2500としています。

次は映像です。設定画面の左側、一般、配信、出力、音声、映像、ホットキー、詳細設定というアイコンの中にある、映像アイコンをクリックしてください。
基本(キャンバス)解像度は、1366×768などご自分のパソコンのモニタの解像度に設定します。この数値はカーソルをあわせてクリックした後適当な値に変更できます。
出力(スケーリング)解像度は、基本解像度と同じでもいいですが、CPUが追い付かずに録画に不具合がでるときは、小さめに設定するといいと思います。1280×720とか、ご自分のモニタの解像度の選択枝から選ぶのがいいでしょう。(910×512が自動設定ウイザードでは設定されていました―2019/2/05追記)
縮小フィルタはバイキュービック、ランチョス、バイリニアから選びます。ランチョスが解像度がよくて、バイリニアが一番悪いのでランチョスから試してみてください。

FPS共通値は毎秒のフレーム数ですので、プルダウンから選ぶか直接入力して30とか29.97とかでいいでしょう。


あとは録画のホットキーを設定しましょう。
映像アイコンの下にある、ホットキーアイコンをクリック、開く画面で、録画開始と録画終了のキーをきめます。私はWindowsキー+F12にしています。

以上で録画の設定が終わりです。他の設定はデフォルトのままにしておいていいでしょう。右上のx印をおしてウインドウを閉じる時に「保存していない変更があります。変更を保存しますか」ときいてくるので「はい」をクリックして終わりです。

Firefoxなどでムービーを再生しておき、録画したい部分を設定して、メニューの録画開始、あるいは設定したホットキーをおしたら録画が始まり、もう一回同じキーをおすと録画終了します。カーソル操作を記録したいときは、ソースのウインドウキャプチャを右クリックし、プロパティでカーソルをキャプチャにチェックをいれます。

参考:
この条件でも録画に失敗することがあります。そこで他の録画条件設定についても簡単に触れておきます:エンコーダをソフトウエアエンコーダである、x264に設定した場合(これでもだめならストリームエンコーダにするとうまくいく時もあるかもしれません)下のほうにレート制御、ビットレートなどの選択画面がでてきます。
CPU使用のプレセットは、デフォルトがveryfastですが、CPU使用率を下げるにはsuperfastやultrafastを選ぶといいようで、私は一番CPU使用率の低いultrafastを使っています。

動画のことは素人ですので、もっとうまい設定があるかもしれません。いろいろ試してみてもっとうまくいく方法があれば教えてください。

テキストデータをどんどん蓄積していくソフトの紹介その3―詳しいTextclipperのclipfileツールの使い方です

前に紹介したTextClipperのクリップツールの一つclipfileを作者の吉村隆樹さんがバージョンアップしてくださいました(2018/11/28)。前のバージョンを使っている方は新しいバージョンにしてください。ここからバージョンアップ版をダウンロードして解凍してできたclipfile.ctaファイルをtextclip7962フォルダ中に上書き保存するだけです。以前のバージョンでは保存日時の年号が正しく入らなかったのですが、今回のバージョンアップで2018がちゃんと入るようになりました。吉村さんによると典型的な2000年問題だったそうです。バージョンアップをお願いして数時間で新バージョンを作ってアップロードしてくださいました。吉村さん、どうもありがとうございました。

以下では先日紹介したTextClipperのクリップツールclipfileの使い方をもうすこし詳しく紹介しておきます。
1)まずTextClipperをここからダウンロードしてダウンロードしたzipファイルを解凍してください。解凍してできたフォルダがtextclip7962という名前になります。このフォルダはProgram Filesのフォルダには入れないでください。入れると動きません。このプログラムを使用するには7-zip32.dllが必要です(バックアップ時)のでここから取得してください。

2)ここまでの作業でtextclip7962というフォルダができました。バージョン番号がフォルダ名になっていますね。TextClipper本体はこのフォルダの中にあるtextclip.exeです。これをダブルクリックするとTextClipperが起動します。このソフトの使い方については

http://www.hi-ho.ne.jp/makoto_watanabe/tc/index.html などをみてください。

では次にclipfileというクリップツール(TextClipperの機能拡張のようなものです)をインストールしましょう。これはブラウザにかぎらずMS WordやAcrobat Readerで表示しているpdfファイルなど、任意のソフトで表示しているテキストを選択し、それを規定の名前のテキストファイルTc_txt.txtに次々と保存できるツールです。
一つのテキストファイルに、保存日時と出典、および保存時に追加できる任意のキーワードとともに保存してくれます。新しくクリップしたテキストはもとのテキストファイルの末尾に追加されます。これを使うと、ネットサーフィンで見つけたテキストをキーワード付きでテキストファイルで保存できますので、あとで秀丸など適当なテキストエディタでgrep検索して簡単に探し出すことができます。保存するときに将来検索の時に思いつきそうな、選択したテキストには含まれないキーワードを追加しておけるので、後々の検索時に探しもれが少なくなるのもこのツールの便利な点です。

3)では、clipfileを使えるようにしましょう。
以下のurlからクリップツールのclipfileを選んでダウンロードします。
http://takaki.la.coocan.jp/freesoft/textclipper/
ここをクリックしてダウンロードしてもいいと思います。clipfile.zipがダウンロードできますので、前に紹介した7-Zipなどのソフトで解凍します。解凍してできたclipfile.ctaというファイルを上の2)でできたtextclip7962のフォルダにドラッグして移動させます。これでclipfileを使う準備ができました。

4)TextClipperを起動して、clipfileを使ってみましょう。
まずTextClipperを起動します。

上の図のヘルプの左にある、環境設定を選び、

開いてでてくるメニューでクリップツールキーをAlt+cなど好きなキーの組み合わせに設定します。

これでAlt+Cを押したらクリップツールが動くように設定できました。

5)では、実際にテキストを適当に選んでスクラップブックのようにテキストファイルに保存してみましょう。
まずTextClipperを起動しておいてください。そのあと、ブラウザなどで適当なサイトを訪れて、保存したいテキストを選択し、さっき決めておいたクリップツールキー(Altをおして同時にCを押す)を押します。すると下の画像のようにポップアップメニューが開いて一番上に「TextFileに追加」がありますのでこれを選択します。
するとキーワード入力のポップアップ画面が開きますので、あとで検索に便利なキーワードを入れます。複数入れても構いません。自由に入力しましょう。

保存ボタンをおして完了です。Tc_text.textという名前のファイルに上の選択した部分が出典の一部、日時、キーワードとともに保存されているはずです。

ではうまく保存できたかどうかをtextclip7962フォルダ内にできているTc_txt.textというファイルを開いて確認しましょう。出典、日付、キーワード、クリップしたテキストの順に保存されていたら成功です(下図参照)。

上の例では、私の去年の学会でのランチョンセミナーの講演動画がでているYouTubeのページにあるテキストをクリップしたテキストの後に、今しがたクリップした論文のテキストが追加されています。N型糖鎖、先天性グリコシル化異常症などとあるのは、さきほどつけたキーワードです。その下にクリップしたテキストが保存されているのがわかります。

このように、ちょっと気になったテキストを、どんどんクリップして蓄積しておき、あとで秀丸エディタなどのテキストエディタのgrep検索機能で検索します。grep機能についているタグジャンプ機能を使えば該当するクリップしたテキスト全文のある場所に容易にジャンプすることができます。テキストファイルのサイズが大きくなってきたら、Tc_text.textファイルの名称をTc_text1.txtなどすきな名前に変更します。次にclipfileツールでクリップしたら、自動的にまっさらなTc_txt.txtファイルができてそこに保存されますので、またゼロからクリップがはじめられます。

こうしてできた大量のクリップファイルを一斉に grep検索したら何年にもわたって蓄積したデータを一瞬で検索できて便利です。データはテキストファイルですので、加工も活用もきわめて簡単です。英語論文の例文集の作成、アイデアメモの作成などいろいろな用途につかえるすばらしいツールですので是非活用してみてください。

写真は福岡で撮影したイチョウです。とてもきれいに黄葉しています。秋も深まってきました。

 

AntConcの使い方と活用法その2―自分専用の英語論文例文集(コーパス)の作り方pdftotextの使い方

前回紹介した英語論文用の例文集に使えるAntConcはテキストファイルやhtmlファイルを扱いますが、最も身近な英語の例文集の素材はpdfファイルだと思います。そこで今回は英語の例文集の作成のために重宝する、「pdfファイルをテキストファイルに変換する方法」を紹介します。AcrobatやFoxit Readerなどでpdfを開いて、textファイルとして保存する方法は、pdfファイルが数百、数千ある場合は手作業では対応できません。こんな場合は、Acrobatなどで複数のpdfファイルを一つのpdfファイルに結合してからtextファイルに変換するという方法もありますが、そんなめんどうくさいことをしなくてもpdftotextという無料ソフトを使えば一括で複数のpdfファイルをそれぞれ別のテキストファイルに変換でますので、やってみましょう。

まずpopplerというpdfを扱うプログラミングライブラリ(その中にpdftotextが入っています)をお使いのWindows, Mac, linux用のものを選んでダウンロードしてインストールします。linuxではsudoコマンドでpopplerをダウンロードしてインストールできますし、Mac版もアプリストアからダウンロードできるはずです。私が使っているWindows 10やWindows 7のPCの場合については、ここに詳しいインストールの仕方が書いた記事がでているのを見つけました。大変丁寧に書いてありますのでそのよく読んでインストールしてください。私もこの記事のとおりにインストールして利用しています。

私はCドライブ直下にpoppler-0.68.0というフォルダ(ダウンロードしたPopplerの圧縮ファイルを解凍(解凍ソフトは註1をみてください)してできるフォルダ名のままコピーしただけです)を作り、その直下にあるbinフォルダ(binaryフォルダの意味で、実行ファイルが入っているフォルダのことです)に自分の必要なpdfファイルを集めてテキストファイルに変換しています。shareフォルダの下にはpopplerとrenameしたデータファイル(上述のホームページにあるリンク
https://poppler.freedesktop.org/poppler-data-0.4.9.tar.gz からダウンロードしたpoppler-data-0.4.9.tar.gzファイルを解凍したもの。註1参照)をおいてください。あとは以下のコマンドを記述したバッチファイルをテキストファイルエディタで作ることが必要です。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

このコマンドをテキストファイルエディタにうちこみ、できたファイルに適当な名前(pdf2txt.batとかすきな名前)をつけて保存します。保存のときデフォルトではテキストファイルで保存されれウため、pdf2txt.txtになりますのでファイル名の変更でpdf2txt.batにするか、保存時に.batで保存してください。保存場所はpdftotextのあるフォルダ(上の例ではbinフォルダ)にします。

あとは、変換したいpdfファイルを上のbinフォルダにコピーして、コマンドプロンプトでpdf2txt.batファイルを実行するだけです。日本語のファイルも英語のファイルもともにテキストファイルに変換されます。(invalid font weightというエラーが出るかもしれませんが無視してよいようです。不都合があったら教えてください。)

以下はコマンドプロンプトが初めての人むけの簡単な説明です(註2参照)。

バッチファイルというのはwindowsのコマンドプロンプト(windows7では「すべてのプログラム」の部分をみていくと、アクセサリフォルダの下にあります。windows10では下の図の左端の写真ようにシステムツールの下にあります。)でファイル名を入力してエンターを押すと、ファイル内に書いてあるコマンドを逐次実行するというものです。

矢印のコマンドプロンプトをクリックして起動するとき右クリックで、管理者として実行を選んで起動しておくと管理者としてログインしていないときにおこるトラブルをさけられますので注意してください。

今回のバッチファイルは以下のような内容で動きました。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

意味は、iという変数にpdfのファイル名をいれ、それにpdftotextコマンドを実行してpdfのファイル名(%%i)のついたテキストファイル(%%i,txt)を作るという操作をフォルダ内にあるすべてのpdfファイル(*.pdfというワイルドカード*を使っている部分で、任意のファイル名のpdfファイルを表しています) がなくなるまで一個ずつ繰り返す(for    doの部分)というものです。

コマンドプロンプトを上に説明したように起動すると、黒いバックに白い字の画面が開きます(上の真ん中の図)
自分の今いるディレクトリ(フォルダ)の名前が表示されています。これから目的のpopplerのフォルダを探すとき、たとえばCドライブの直下にpopplerのフォルダがあるなら、コマンドプロンプトでcd ..(cdとうって、ピリオドを二回うちます)というコマンド(これはディレクトリを上に登って行くコマンドです)を何回かうってディレクトリをC:¥>にします。上の図の右端の図。
dirとうつとディレクトリやファイルの一覧が表示されます。
popplerのフォルダへ移りたいのでcd poppくらいまでをタイプしてあとはタブキーを押してください。タブの自動補完機能でcd poppler-0.68.0と自動入力されます。(このタブ補完の機能はlinuxで重宝するのですがWindowsのコマンドプロンプトでも利用できますので活用してください。) enterキーを押すとC:¥poppler-0.68.0>と表示されてディレクトリを移動したのがわかります。ここでdirとうってenterを押すとディレクトリ内のファイルとフォルダが表示されます。プログラムファイルのあるbinのフォルダ(ディレクトリ)があるのを確認してください。cd binとうってenterを押すとbinのディレクトリに移動します。C:¥poppler-0.68.0\binとなっていたら成功です(上の右端の図)。再びdirとうってenterをおします。これでこのbinフォルダ内にあるすべてのファイルとフォルダが表示されます。あとはそこにコピーしてあるバッチファイルpdf2txt.batを実行する(コマンドラインにpdf2txtとうってenterを押す)と、自動的にファイル名のついたtxtファイルができあがります。

こうして一括でpdfファイルをテキストファイルに変換したら、あとはこれらのテキストファイルをAntConcに読み込んでコーパスとして論文を書くときに参照すればいいわけです。

もちろんテキストファイルですから、テキストファイルを一括検索して、検索結果にタグジャンプして参照できるgrepコマンドも使えます。適当な、grepコマンドが使えるエディタ(たとえば有料ですが秀逸なエディタでおすすめの秀丸エディタ)でpdfの内容を串刺し検索するのもよいですね。pdfgrepというソフトもあって、これを使えばpdfファイルのままでgrepができるそうです。これはまだ使っていません。windows版をダウンロードしてさきほどのbinファイルにコピーしておけば、コマンドプロンプトで使えるのですが、linux版とちがって検索語がハイライトしなかったりしてまだ使いこなせていません。興味のある方は使ってみてください。

註1:圧縮ファイルの解凍には私は7-zipを使っています。たいていの圧縮解凍はこれでできます。
註2:パスの通し方とかは説明しないでpdftotextを使う方法を説明していますので、良く知っている方はパスを通して適当な場所にpdftotextをおいて使ってください。

AntConcの使い方と活用法その1―自分専用の英語論文例文集(コーパス)の作り方

京都でひらかれた大学の同窓会にでかけたりして更新が遅くなりました。京都は快晴で、まだもみじの季節ではなかったですが美しかったです。しかし観光客が多いこと多いこと。スペイン語や中国語、韓国語、さらにはノルウエーの旗を立てた団体もみかけました。

さて、昨年の分子生物学会のランチョンセミナーの中でAntConcというフリーソフトウエアの紹介をしました。英文を書くときに自分専用の例文集を作っておいて、それが簡単に検索できればとても役立ちます。前回紹介したTextClipperで役にたちそうな例文をテキストファイルに集めておいて、AntConcというフリーウエアでコンコーダンス検索してヒットした例文を参考に英語を書く方法を紹介します。もちろん自分の関係分野の論文のpdfをテキストファイルに変換して集めておき、それをAntConcで検索してもいいわけです。pdfをテキスト化するには、pdfをAcrobatなどで開いておいてtextファイル形式で保存するのも一つのやり方ですが、一斉にpdfをテキスト化するならLinuxやWindows、macなどにあるpdftotextといったソフトを使うのが便利です。ウインドウズにもこれが含まれているLooperというソフトがありますのでそれを使うといいでしょう。これについては次回紹介します。

それではAntConcの使い方の解説をはじめます。AntConcはコンコーダンスソフトウエアという種類のソフトウエアで、検索語を入力するとテキストファイルからその単語を拾い出し、文中に含まれるその単語の前後をふくめて表示してくれるソフトです。単語の文中での出現頻度などその他の様々な情報もわかります。まず早稲田大学のLaurence Anthony先生ホームページから自分のパソコンのOS(mac, windows, linux)にあったソフト(無料です)をダウンロードします。ここのリンクをご覧ください。
AntConcのホームページには、YouTubeの解説動画や日本語の解説pdf(バージョン3.2,2の解説ですがとても参考になります)などへのリンクもありますので適宜参照するといいでしょう。
ダウンロードしたファイルは実行ファイルなのでダブルクリックして起動します。詳細な使い方は先生のhelpファイルのpdfがあるのでダウンロードしてみてください。

写真はダブルクリックして起動した直後の画面です。起動時にはConcordanceタブが開いています。 Fileメニューが上にあります。Fileメニューをクリックするとプルダウンメニューが開き、その一番上にあるOpen File(s)を選んで検索したいファイル(複数選択可能です)を読み込みます。(下の図)

複数のファイルを読み込んで串刺し検索もできます。またOpen Filesの下のOpen Dirを選ぶと、フォルダ(あるいはDirectory)内にあるすべてのテキストファイル(とかhtmlファイル)を検索してくれます。こうして必要なファイルを開いてやると以下のような画面になります。
下の写真は私達の論文(AkiyoshiさんのCGGDBデータベースについての論文をpdfからテキストファイルにしたものでcggdb.txtという名称にしました)を開いたところです。
Current Filesというところに検索するファイル名が表示されます。複数選択した時は選択したすべてのファイルが列挙されます。
では検索してみましょう。resultという単語を検索することにします。Search Termの部分にresultといれて検索窓の下にあるStartボタンを押して検索してみましょう。(このとき右にあるwordsにチェックをいれています(下図参照)。単語としてのresultが検索されます。Caseにもチェックをいれると大文字小文字の区別をして検索できますし、Regexにチェックを入れると正規表現(Perlタイプのもの)が検索に利用できます)ヒット数は上のほうのConcordance Hits に表示されます。

6個ヒットしています。注意したいのはWordsにチェックを入れた状態で、resultを検索するとresultsは検索されないことです。Wordsのチェックを外してresultとして検索すると、resultだけでなくresultsもresultedもresultingもひっかかってきます。(下図)

ヒット数が57となっているのがわかると思います。
Concordanceメニュ―では、resultというキーワード(Key Words)が文のコンテクストの中で(In Context)どのように使われているかが表示されています。この表示を略してKWIC表示といいます。結果の表示法は、いろいろ下のメニューで変更可能です。たとえばSearch Window Sizeはデフォルトで50文字(腱索キーワードの前後50文字ずつ)となっていますが、これは増やしたり減らしたりできます。ちょっと表示を左右に広げてみるとよくわかります。

Search Termの検索窓の下のほうにKwic Sortとあるのは、検索結果のソートボタンです。

図ではLevel 1が1R(キーワードresultの右の語でアルファベット順にソート)、Level 2が同じ右の単語の場合は、キーワードの二番目の単語でさらにソートします。それがLevel 2 2Rという部分です。Level 3は三番目の単語でさらにソートとなります。もしresultの左の単語でソートしたいときは、Level 1以下の部分を下向きの矢印ボタンを何回かクリックして、下の図のようにかえて、Sortボタンを押してください。

すると検索キーワードの左の単語で再ソートされますので、resultの前にくる単語がわかります。

次にKWIC画面で表示されている原文をみてみましょう。みたいヒット行の青字で表示されているキーワードをクリックしてみましょう。クリックした文を含む原文がFile Viewタブが開いてそこに表示されます。

Hit Locationという部分の上下の矢印をクリックすると、前や後のresultを含む原文が表示されます。カーソルをFile View画面で動かせるようにしておくと、マウスの中央ホイールをくるくるまわして前後のresultを表視することもできます。

皆さんもご自分でつくったテキストファイルやテキストファイル群をこのソフトで開いて遊んでみてください。大変有用なソフトです。ちょっと長くなったので今回はここで止めます。次回はAntConcのその他の機能と、どうやってpdfからtextファイルを作るかについてpdftotextの使い方を紹介したいと思います。

写真は元寇のとき筥崎宮が避難していた場所を訪れたときのものです。とてもいい天気で気持ちがよかったです。バス停をおりると案内板があって、650mほどのぼりの道を行くと古い社があって記念碑がたっていました。人はだれもいません。一番最後の写真は帰りの川面です。波紋がきらきらと川底に映えてハヤも泳いでいました。このへんはホタルも初夏には見られます。

テキストデータをどんどん蓄積していくソフトの紹介―その2 TextClipperの紹介です。

HeartyLadder (ハーティー・ラダー)というソフトをご存知ですか?このソフトのサイトにある文章をそのまま引用させてもらいます。
だれでもみんな人に伝えたい「こころ」があります。
笑みで、言葉で、手紙で、そしてE-mailで・・・・

本ソフトウエアは手などが不自由なため、キーボードやマウスでの入力が出来ない方のために 開発した文章入力用のソフトウエアです。
 ハーティーラダーは、文章の作成やメール、そしてWindows操作を支援するソフトウェアです。キーボードやマウスが使えなくても、漢字交じりの文章を書けて  E-mailのやりとりができます。またホームページを見たり、ワードやエクセルなど一般のアプリケーションの操作もできます。  このソフトを使ってラブレターも書いてもらえたら素敵だなぁと思いながら、  私たちも心を込めて作っています。また、2011年に公開したマイボイスというソフトを使うことで、自分の声での読み上げができるようになっています。 このHeartyLadderがあなたの『心の架け橋(HeartyLadder)』になればうれしいです。

Xoops(註1参照)でつくられているHeartyLadder のサイト ハーティー・ラダー・サポーターのぺ―ジhttp://heartyladder.net/xoops/をみるとこれが、物凄いソフトだということがわかります。このソフトの開発改良が多くの方々の参画を得て、日々 着実に進んでいるのを拝見して頭がさがりました。たとえば以下をご覧ください。
http://heartyladder.net/xoops/modules/whatsnew/
ハーティー・ラダーの開発者は吉村隆樹さん。以下に紹介するTextClipperの開発者でもあります。吉村さんについてはご自身の本、パソコンがかなえてくれた夢 (高文研)や、吉村さんのホームページ まなつのみかんにある、ブログをご覧ください。なおこのまなつのみかんのHeartyLadderの記述は古いようなので、上にあるリンクをご覧ください。

HeartyLadderはキーボードやマウスが使えない方でもラブレターが書けるようにというコンセプトのソフトですが、どんどん改良を重ねておられて、今では視線入力装置と連携してALSの患者さんも使えるようになっているそうです。視線入力装置対応のHeartyLadderも無料で公開されています。昔は150万円くらいした視線入力装置が2014年に12000円くらいで入手できるようになったそうで、この視線入力装置を使うためのソフトHeartyAiと、このHeartyLadderと組み合わせるとよいとのことです。以下に説明のpdfがありますのでご覧ください。http://heartyladder.net//upload/takaki/hearty/HeartyAi.pdf
関連した新聞記事もリンクが切れるかもしれませんが、ご覧ください。
https://mainichi.jp/articles/20180331/k00/00m/020/106000c

さて、TextClipperです。これは以下のページにある吉村さんの説明を引用しますと、こんなソフトです。http://takaki.la.coocan.jp/freesoft/textclipper/

TextClipperについて
本プログラムはテキストのデータベースです。
某ユーザーさん曰く
  テキストのデータベースなんてかたぐるしく言わずに、「アイデアクリップ」とか
「アイデアメモ」なんて紹介するともっとユーザーが増えると思います。

と・・・・・
多くのテキストをツリー構造で管理します。
データーベースというと、データの入力が結構大変です。特にテキストのデータベースになると、テキストファイルを読み込んだり、ソフトを切り替えてコピー&ペーストを繰り返してと言うことになるでしょう。でもこのソフトではそういう作業は必要としません。
世はインターネットブーム。ネットサーフィンに興じている人も多いでしょう。
そこで得た情報はどうやって管理しておられるでしょうか。
この部分の文章はとっておきたいと思っても、すぐに簡単には保存できないと思います。
でもこのソフトを常駐させておくと、ネットスケープやインターネットエクスプローラで保存したい部分を反転して後はボタンを1つ押すだけです。
タイトルを付けたりする必要もいっさいありません。
プログラミングやネットサーフィンをしながら手間をかけることなく自然とデータベースにデータが蓄積されていく感じです。これより簡単な保存方法はないでしょう。
また、その逆のデータベース化したテキストを利用するときも、簡単に使用中のワープロやエディタ、通信ソフトにペーストできます。
本プログラムはいろんな場面で応用できると思います。」

私はこのソフトのクリップツールという機能拡張を主に使っています。ネットサーフインしていてこれはと思ったテキストをキーワードをつけて(つけなくてもいいです)、どんどん一つのテキストファイル(Tc_txt.txtという名前のテキストファイルです)に保存していくことができます。新しくクリップしたテキストはこのテキストファイルの最後尾にクリップした日時、簡単な出典表記、自分でつけたキーワード(なしでもOKです)とともに追記されていきます。こうしてテキストデータベースを構築しておけば、あれはなんだったっけと思いだせないときにも、保存したテキストファイルをgrepソフトなどで検索したら一発で該当テキストをみつけられます。キーワードを保存時に追加しておけばなおさら検索は容易になります。保存には自分で保存用キーを設定することもできます。私はたとえばshift+Cにして保存しています(12月1日追記:すみませんshift+Cでは大文字のCを入れる時にクリップツールが起動してしまいだめです。alt+Cとか、shiftのダブルクリック+Cとかにしてください。)が、キーコンビネーションは環境設定メニューの、キー割当から設定できます。

クリップボードに入ったテキストファイルが保存されますので、TextClipperを常駐させておけば、Microsoft Wordやpdfリーダー(Acrobatなど)、ブラウザで表示したテキストなど任意のソース中のテキストファイルを保存することができます。一つの決まったファイルにクリップするごとに付け足されていきますので、このクリップをどんどんつづけていけば、結構充実したテキストデータベースができます。このクリップツールは以前、吉村さんにお願いして作ってもらったものですが、大変便利です。
これはTextClipperのページにあるクリップツールのなかの、作者のところに木谷さん 野村さんとあるものをダウンロードして解凍してできたファイルclipfile.ctaを、TextClipperフォルダに入れると使えるようになります。私はこんなツールがあったら良いなぁとうお願いをしただけです。プログラムは木谷さんと吉村さんです。

私の去年のランチョンセミナーで、論文の例文集をつくっておいて、それをコンコーダンスソフトで検索して、英文執筆に役立てると言う話をしました。その例文集の作成にもピッタリのソフトですので、お試しください。その際、改行の処理とかが必要になるかもしれませんが、いろいろ工夫してみてください。とても便利なソフトですよ。

(12月2日追記:clipfileの使い方についてさらに詳しく説明しましたのでここを次にご覧ください。)

(註1:Xoopsはこのブログで使っているWordPressのような、コンテントマネジメントシステムCMSというもので、研究室の内部ホームページで必要な資料を共有する、連絡をするなどに活用していたこともあります。いろんなレンタルサーバーで使えるので活用するのもいいかもしれません。私達は、MicrosoftのOneNoteに変えてしまったので今は使っていません。OneNoteで各人の実験結果を毎日報告してもらい、進捗状況を把握しコメントする、通勤電車の中で各メンバーの進捗状況を確認してコメントする、情報を共有する、などの使い方をしていましたが、これは役立ちました。OneNoteは絶対おすすめのソフトです)

画面、動画、テキストなどデータをクリップするソフトの紹介―その1

今日は私が使っているいくつかのソフトを紹介します。まず画面の静止画像をキャプチャするソフトです。これはWinShotを使っています。昔からあるソフトですが私のwindows10環境、windows7環境で作動しています。(残念ながらwindows10ではヘルプはでません)。起動して範囲を指定してスクリーンキャプチャするには、デフォルトではAlt+PrintScreenを押します。範囲指定の十字が出てきますので、マウスを左クリックしてドラッグして範囲を決定してクリックするとクリップボードに範囲の画面がjpgで保存されます。もちろんビットマップ保存、jpeg保存などを、アクティブウインドウ、デスクトップ、台形範囲指定、などで保存できます。保存先のフォルダの指定ももちろんできます。このソフトは教材のスライドに資料として使いたい画像を挿入するのに使っていました。

一方、論文セミナーのスライド作りでは、論文のpdfを表示させておき、pdf表示ソフトの画像キャプチャ機能’(Adobe Acrobat Professionalならスナップショットツール)を利用して必要な図や表をクリップボードにコピーして、パワーポイントファイルにペーストします。図をコピーするときにはpdfの拡大表示(ズームインの拡大率)機能を活用して、表示倍率を100%ではなく300% 以上くらいにした上で、キャプチャしたい範囲を指定してキャプチャするのがいいです。100%でやると、できた画像はスクリーンに投影すると解像度が悪くてぎざぎざが目立って使い物になりません。パワーポイントで投影したときに図の画質が十分になるためには、pdfの表示倍率を高くしてキャプチャすると覚えておいてください。

話がそれましたが、上で紹介したソフトWinShotには、さらに定期実行キャプチャというのもあって、指定した秒の間隔で、デスクトップやアクティブウインドウ、指定した台形範囲などを定期的にキャプチャして一か所のフォルダにビットマップかjpegで保存してくれるモード(ファイルに自動ナンバリングもできる)もあります。これも重宝しています。定期的にキャプチャした画像をまとめてpdfにしたりするのも簡単にできますから、この機能の応用範囲は広いです。

あと、画面上で再生されている動画やカーソルの動きなどを動画で記録するためのソフトとしては、OBS Studioとかいうソフトが有名なようです。一度ダウンロードして使ってみようと思いますので次回に報告します。また次回にはクリップボードにコピーしたテキストファイルをどんどん集めていくソフトの紹介もしますのでお楽しみに。

写真は散歩コースの途中でみかけた萩の花です。秋も深まってきました。

 

プレプリントサーバーとその活用法の紹介4―最新情報の追加です

このブログではプレプリントサーバーの活用について紹介してきました。いつも多数のアクセスありがとうございます。写真は近所でみかけたくずの花です。秋も深まってきました。

何度もNIHのVideoCastを紹介していますが、数日前に米国のポスドクの現状とポスドクとしての能力、存在感をアピールするのにプレプリントを発表することが薦められるという講演があったので紹介しておきます。Jessica PolkaさんのNIHでの講演で、米国のポスドクの現状、最初のfirst author(筆頭著者)の論文を発表するのに要する期間が、これまでになく長くなっており、論文が少ないので研究費を獲得したり、次の職を得るのに困難を覚えるポスドクが増えているのに対する対策、そして査読する能力をどのように向上させるかなどを扱っている、興味深い講演でした。
講演のスライドはここをクリックするとダウンロードできます。Google documentに保存してあるのでFirefoxではうまくいかないので、Google のブラウザChromeかInternetExplorerでアクセスしてください。青字で閲覧のみとか書いてありますが、スライドはダウンロードできます(開いたページの「ファイル」をクリックして開き、「形式を指定してダウンロード」を選んで、Powerpointやpdfなど好きな形式でダウンロードしてください。講演は高画質でダウンロードできますので、たとえば1240kの高画質でダウンロードして、適当なメディアプレーヤーでみればゆっくり講演を聴講できますのでお試しください。ハイビジョンの高画質のムービーでもみられるメディアプレイヤーとして、私はMPC-BEというフリーソフトを使っています。

JessicaさんはASAPbio(エイサプバイオ)という組織―ASAPbio (Accelerating Science and Publication in biology) is a scientist-driven initiative to promote innovation and transparency in life sciences communication. We are a 501(c)3 nonprofit incorporated in the state of California―に属していてプレプリントの利用を推奨するとともに、ポスドクのキャリアパスについても研究している方です。

講演にもありますが、論文に要求されるデータ量が激増していいます。それで昔は4年の大学院(米国の例)の場合、平均3-4年で筆頭著者の論文first author paperがでたが今では平均4-5年と論文の出版が遅れるようになっているようです。これは論文として出版されるために必要な実験量が昔の倍以上になっていることも原因であり、以下の論文で具体的に実証されています。論文中の実験量は図のパネルの数―つまりFig. 1A, Fig. 1B,. Fig. 1Cなどどある場合のA,B,Cなどの数―を数えてそれにTableの数などを加えて算出してます(註1)。下の論文やこのビデオをみてもらうとデータがありますのでご覧ください。実験量が増えたことで、論文として完成するのに時間がかかり、ポスドクや院生が論文をだすのが遅くなってしまうわけです。これは日本で多い5年プロジェクトなどでも経験しますが、ポスドクや院生や研究者にとって深刻な問題です。それをどうして救うかというのがこの講演の内容です。プレプリントを活用できるというのがこの講演の一つのメッセージです。(註1:私見ですが、さらにグラフの場合、統計処理するためサンプルのサイズN=30とかになることがよくありますので、一つのパネルといってもそこには本当に多数の実験が繰り返されている場合があり、これをカウントするともっと実験量が増えると思います)。

Accelerating scientific publication in biology
Ronald D. Vale

プレプリントのメリットは、いろいろあります。
メリットその1) 去年あたりから、グラントの申請や業績報告書にプレプリントを掲載することができる組織が激増しています。つまり就職活動や研究報告、新しい研究費の申請のときに、業績としてプレプリントが使えるようになっているわけです。
日本の方に関係あるところでは
Human Frontiers Science Program (December 12, 2016)でもプレプリントが利用できます。“The Board of Trustees of the International Human Frontier Science Program Organization (HFSPO) has decided that for competitions starting in calendar year 2017, applicants may list preprint articles in the publication section of HFSP proposals. Current HFSP awardees are also permitted to cite publications which are deposited in freely available preprint repositories in interim and final reports to the Organization.”

といった具合です。Wellcome Trust , MRCやNIH, HMMIなど大手のグラント母体もそういう方針になっています。これもASAPbioのページにリストがあります。

プレプリントについては以下のページ(ここをクリック)がまとまっています。またpreprintについて投稿してみた人の経験がこのリンクに動画と画像で紹介されています。

プレプリントサーバーは以前にも紹介しましたが、最新のプレプリントサーバーのリストがありますのでご覧ください。Research Preprints:ServerListというページです。

ここにリンクがあります。

メリットその2) プレプリントを公開すると学会の講演のように、研究者の存在感を示すことができます。

メリットその3) フィートバックがくるので論文を改善できます。bioRxivの場合は10%ほどにコメントがつくようです。他の人にコメントをみられたくないという人も多くて、そんな人は著者にemailしてきたり、twitterやFacebookなどのSNSでコメントをくれるようです。プレプリントサーバーのコメントは公開前にチェックが入っているので炎上とかなないようです。

メリットその4) 雑誌の編集者はプレプリントをみていますので、プレプリントをみてうちの雑誌に投稿してくださいといってくることinvitationも結構あるそうです。(PLos GeneticsやProc. Royal Society Bなど)

メリットその5) 研究の早い段階でプレプリントをみて連絡してくる共同研究者が見かる例も多いそうです。

メリットその6) いつどんな研究をしたかを、公開のプレプリントサーバーに記録としてのこせる(doiもプレプリントに付与されますし、プレプリントの引用を許している雑誌も増えています)上に、バージョン管理もできる。

メリットその7) 就職や研究費(グラント)申請の時、研究者としての生産性を示すことができる。これは上にも述べました。今までは論文を投稿してからアクセプトされるまでは業績や研究成果に載せられないことが多かったのですが、プレプリントを業績として認める組織が増えているので大きなメリットです。

メリットその7) そしてなによりも発見を加速させることができるのが最大のメリットでしょう。

では不安点はというと:
I’m going to get scooped!というのが最大の不安なのではないでしょうか。しかしこれは簡単にはやれないと思われます。論文の内容をプレプリントでみて、それをもとにもっとよい論文を書くというのですが、これをやるのはほぼ不可能だと思います。アイデアとか実験とかはプレプリントに書かれており、投稿日もバージョンも公開されているので剽窃は困難です。アイデアや方法、結果のクレジットを早々ととって、研究成果を共有するメリットのほうがいまや大きくなってきているようです。物理とかコンピュータサイエンスの分野でのプレプリントの経験から、scoopするのが困難でリスクをともなうことは明らかなことだと思います。その他の考える不安点も講演で議論されていますのでご覧ください。

どの雑誌がプレプリントへの投稿前の掲載を許可しているかは、ここをごらんください。

またプレプリントの雑誌会というのもネット上にいろいろあるのでその紹介やレフリーのコメントなどを公開する動きが加速しているという話も講演にあります。

夏休みおすすめソフト(3)RstudioにR commanderとそのプラグインEZRを入れてみよう―EZRインストールのトラブルシューティング

前回はRとRstudioの紹介をしました。続いてRstudio上からRのプラグインであるR commanderと、RコマンダーのプラグインであるEZRをインストールする方法を紹介しようと、最新版のRを使って紹介記事を書いていたのですが何故かEZRのインストールがうまくいきませんでした。Rcmdr(R コマンダー)をRstudioからインストールしたあと、EZRをRstudioからインストールする時うまくいきませんでした。解決したのでうまくいったRコマンダーとEZRをインストール法を紹介しておきます。

前回紹介した方法でRをインストールし、次にRstudioをインストールします。
次にRstudioを起動してRcmdrをインストールします。やり方は、

Rコマンダーのインストール:
右下のpane(パネルのようなもの)からpackagesタブを選びます。boot, class, clusterなどのsystem libraryのパッケージがすでに存在するのがわかります。アルファベット順にならんでいるのでずっとリストをみていってもR commanderなどのパッケージ(Rcmdrなど)はありません。これをインストールするのが今回の作業です。 右下パネルのInstallタブをクリックします。すると新しいウインドウが開いてpackagesという部分にカーソルが点滅していますので、そこにrcmdrといれてみましょう。ポップアップがでてきてRcmdr以下、RcmdrMiscとかRcmdrPlugin.aRnovaなどがずらーっと一覧ででてきます。下ののほうにRcmrPlugin.EZRもありますね。まずRcmdrを選択します。install depencenciesのチェックがはいっているので、そのままにします。そしてInstallボタンを押します。すると左下のコンソールpaneにいろいろいろ赤字で表示がはじまり、packagesを次々と解凍してインストールしているのがわかります。結構な時間がかかると思いますが終わるまで気長に待ちましょう。赤字でいろいろ経過が表示され、その後、カーソルが点滅してすすまなくなったように見えますが、5分も放置しておくと次にすすむようでパッケージの解凍などに時間がかかるようです。コンソールパネルにThe downloaded binary packages are in どこそこ、というパッケージの保存場所の表示がでたら終わりです。終わると右下のPane{パネル)に前にはなかった様々なパッケージがあるのがわかります。パッケージの表示パネルにRcmdrとRcmdrMiscが表示されているのを確認してください。

次に、library(Rcmdr)とコンソールにうちこんでR commanderを起動。see ?effectsTheme for details.という赤字のメッセージでRstudioのコンソール画面は止まるので、Rstudioのウインドウを最小化して画面をみると、「Rcmdrが利用する次のパッケージがありません」というメッセージのでているポップアップウインドウがあり、「これらのパッケージをインストールしますか?」ときいてくるので、はいをクリック。すると、「ないパッケージをインストールする」という画面がでるので、CRANの指定でOKを押します。

Rstudioにもどって見ていると、つぎつぎと赤字でインストールがすすみます。そしてインストールが成功すると>の印がコンソールにでますので、インストール終了です。

コンソールにlibrary(Rcmdr) とうちこんでエンターを押すと、Rコマンダーのポップアップウインドウが自動で開きます(日本語です)。

EZRのインストール:
上の図のR コマンダーのメニューのツール(ヘルプの左)をクリックして、Rcmdrプラグインのロードをクリックします。(ここが大事なのですが、この段階で、Rstudioの右下のPackageのパネルでRcmdrPlugin.EZRにチェックが入っていないことを確認してください。つまりRにロードされていませんので注意してください。私は最初、Rcmdr, RcmdrPlugin.EZRの順にRstudioの右下パネルでチェックをいれて、Rコマンダーを立ちあげていました。そうするとEZRがこのプラグインのロードに表示されない=RコマンダーからEZRが使えないという不具合が起こります。必ずPackageのパネルでEZR pluginにチェックが入っていないことを確認してください。上の図のようにプラグインにEZRが選択されて表示されているので、OKをクリックします。するとRコマンダーを再起動しないとプラグインを利用できません、再起動しますか?(下図)ときいてくるので「はい」をクリックします。

再起動するとEZRの画面がでます(下図)。Rstudioとは別のウインドウに表示されるので注意してください。

メニューの一番右に「標準メニュー」というのがでていたら成功です。ここに本来のRコマンダーのメニューがあつまっていて、Rコマンダープラスアルファの機能がその他のメニューから使えます。解析結果のグラフなどはRstudioのplotパネルではなく独自のポップアップパネルにでてきます。

Rstudioにもどってみると、右下のパネルのPackageのところのRcmdrPlugin.EZRにチェックが入りました。

EZRを閉じるときには、Rコマンダーのメニューから閉じて、その後、Rstudioを閉じてください。

以上です。

その他のRstudioについての注意:
1)RstudioではLinuxとおなじようにTab補完機能が使えます。たとえばコンソールでlibrary(Rとうちこんでtabキーを押すと、RcmdrとかRcmdrPlugin.EZRとかの候補がポップアップしますので、適当なのを選んでエンターをおせば入力の手間がはぶけます。これは便利な機能です。

2)あとR commanderが起動している状態でRstudioを終了するときの注意。Rstudioでquitコマンドをいれても永遠に終わらないので困ります。これは、R commanderの終了画面でOKをおさないとR コマンダーが終了できないためです。RstudioのquitコマンドではRコマンダーはquitできず、quitting sessionsが永遠に続くのです。

3)インストールしたパッケージは、ドキュメントのフォルダにあります(windows7以上の場合)。まっさらにRをしたいときは、Rをアンインストールした後、このドキュメントフォルダ内の、Rフォルダを削除しないとパッケージは残ります。

4)Rstudioでは4つのpaneが表示されるといろんなところに書いてあります。でも一番左上のソースエディタが表示されていない人が多いのではないでしょうか。これを表示させるには、ToolsからGlobal Options、Pane LayoutとすすみEnvironment, History, connections, presentationsと並んである画面にあるViewerのチェックをいれると表示されるようになります。もう一つよくあるのは、ソースエディタが隠れていて見当たらないケースです。この場合は、sourceと書いてあるのでわかります。その部分をマウスでドラッグして拡げればソースエディタが見えるようになります。