オープンアクセスの電子ブックをダウンロードしてみよう―Pythonや制御理論や統計学の教科書、力学の教科書やFelix Kleinについての本などなど

以前の記事に書きましたが、分子生物学会のランチョンセミナーでオープンアクセスの電子ブック(無料で読める電子ブック)を探せるサイトDOAB(Directory of Open Access Book)を紹介しました。リンク集にもリンクをのせてあります。今日、ちょっとのぞいてみるといろいろオープンアクセスの本が新しく公開されていました。検索窓にPythonと入れて検索してみると、Pythonに関連した本がずらずらとでてきます。本のLicenseの下にある
Abstract | Keywords | Free access | Buy the book |の部分のFree accessのリンクをクリックすると本がダウンロードできます。いろいろな本がありますがPythonを学ぶにはIntroduction to Scientific Programming with Python
Authors: Dr. Joakim Sundnes in Simula SpringerBriefs on Computing。Springer Nature (2020) とか
Programming for Computations – Python
Authors: Linge, Svein — Langtangen, Hans Petter
Book Series: Texts in Computational Science and Engineering, Springer Nature (2020) などは面白そうです。
また神経科学へのPythonの応用を紹介している本で
Python in Neuroscience
Authors: Eilif Muller — James A. Bednar — Markus Diesmann — Marc-Oliver Gewaltig
Book Series: Frontiers Research (2015)Publisher: Frontiers Media SA
も神経科学に興味がある人には面白いのではないでしょうか。

検索窓にソフトウエアのMathematicaをいれて検索すると、こんどは制御理論の教科書がでてきました。Mathematicaを使って制御理論を学ぶ教科書のようです。
Control Theory Tutorial: Basic Concepts Illustrated by Software Examples
Author: Steven A. Frank Book Series: SpringerBriefs in Applied Sciences and Technology, Springer Nature (2018)

ほかにもいろいろ面白そうなオープンアクセスの本があります。Browseボタンを押して色んな本をタイトル、分野、そして出版社別にながめることもできます。Publisherで検索すると、各出版社から何冊くらいオープンアクセス本がでているかがわかります。とても多くのオープンアクセス本をだしているSpringer Nature社の面白そうなタイトル(2019-2020年発行)を以下にならべておきますので、検索してみてください(直リンクははってないので、上のサイトでタイトルで検索するなどしてみてください)。科学だけではなくて哲学、社会学の本とかもあります。たとえば王陽明の紹介本とかもありました。

Make Life Visible
Prof. Yoshiaki Toyama, Ph.D. Atsushi Miyawaki… (2020) 生物科学の可視化の技術の本のようです。

Statistical Population Genomics
Julien Y. Dutheil in Methods in Molecular Biology (2020)

Gene Drives at Tipping Points
Precautionary Technology Assessment and Governance of New Approaches to Genetically Modify Animal and Plant Populations
Prof. Dr. Arnim von Gleich… (2020) ジーンドライブについての本

Data Journeys in the Sciences
Dr. Sabina Leonelli, Dr. Niccolo Tempini (2020)

The Amazing Journey of Reason
from DNA to Artificial Intelligence
Mario Alemi in SpringerBriefs in Computer Science (2020)

Introduction to Scientific Programming with Python
Dr. Joakim Sundnes in Simula SpringerBriefs on Computing (2020) これは最初に紹介した本です。

The Pangenome
Diversity, Dynamics and Evolution of Genomes
Dr. Herve Tettelin, Duccio Medini (2020)

Bioimage Data Analysis Workflows
Dr. Kota Miura, Dr. Nata?a Sladoje in Learning Materials in Biosciences (2020)

Good Research Practice in Non-Clinical Pharmacology and Biomedicine
Editors :Anton BespalovMartin C. MichelThomas Steckler 薬学や医学での研究の再現性、正しいサンプリング、実験デザインなどを教えてくれる本です。

The Everyday Life of an Algorithm
Authors: Daniel Neyland アルゴリズムのやさしい紹介の本。

Principles of Mechanics
Fundamental University Physics
Salma Alrasheed in Advances in Science, Technology & Innovation (2019) 物理の力学の本

The Ethics of Vaccination
Dr. Alberto Giubilini in Palgrave Studies in Ethics and Public Policy (2019) ワクチン接種の必要性を議論している本

Understanding Statistics and Experimental Design
How to Not Lie with Statistics
Prof. Dr. Michael H. Herzog… in Learning Materials in Biosciences (2019) 統計学と実験計画法の教科書

The Legacy of Felix Klein 数学者フェリックス・クラインについての本
Prof. Dr. Hans-Georg Weigand… in ICME-13 Monographs (2019)

The Brownian Motion
A Rigorous but Gentle Introduction for Economists
Authors;Andreas Loffler, Lutz Kruschwitz 経済学者のためのブラウン運動の理論の教科書。

写真は5月ごろに撮影したバラの花をホテルにしているアマガエルです。昼間はこのバラの花の部屋の中でじっと休憩していますが、夜になると外にでかけて大きな声で鳴きます。今も外はカエルの声がにぎやかです。

コロナ感染拡大にともない公開されている無料で使えるサービスのいろいろ(4/18追記あり)

今日はコロナで外出できなくなっている人のために公開されている、面白そうな無料サービスをいくつか紹介します。

Ohmshaからマンガでわかる免疫学という本その他が無料公開されています。4月19日まで無料公開ということなので急いでご覧ください。(無料公開は終了しています)自然免疫とは何かとか、コロナウイルス感染の報道を理解する上での基礎知識です。(九大の人はMaruzen eBook Libraryにログインしたら読めますし、50ページづつのダウンロードも可能です。)同じサイトに公開されている本には、算数の本とかコスプレ入門とかもあって面白そうです。

英語で書かれた線形代数の教科書Linear Algebra Done Right (Sheldon Axler著、Springer)が演習問題解答やスライドなども含めて無料でダウンロードできます。本はSpringerのコロナ感染拡大にともなう無料公開措置で7月末までここからダウンロードできるそうです。https://link.springer.com/book/10.1007/978-3-319-11080-6 また、スライドやビデオは、ここにあります数学のお好きな方はこの本はおすすめです。物理や化学の人にはこんなのはどうでしょうか。Linear Algebra and Analytic Geometry for Physical Sciences (Giovanni LandiとAlessandro Zampiniの共著。)これもSpringerが公開してくれている本です。もっといろいろな本がコロナ流行にともないSpringerから公開されています。リストは下のほうに載せてある九大の公開しているリンク集からダウンロードできます ( 九大図書館のリンクは今日ー4/18ーみたところ消えていたので下のほうにあるリンクあるいは、こちらをご覧ください。日本語でのアナウンスはここです。リンク集のExcelファイル中に本の名前とダウンロード用urlなどがのっています)。

私は一昨日、下のリンク集にあるサービスで大図書館にログインして使えるサービスAcademic Video Online(授業や自学自習に役立つ質の良いビデオコンテンツを61,000件以上収録している、ストリーミングビデオのデータベースです。2020年6月30日まで特別トライアル)というのを試してみました。いろんな教育関係のビデオがあるのですが、BBCの番組が多いのに気づき、では昔BBCのHorizonという番組でやっていたというドラマLife Storyがないかなと探してみました。ありました!これはDNAの二重らせん構造を解明した科学者たちの競争と研究の様子をかなり忠実にたどった感動のドラマです。昔、数万円でビデオが売られていたのですが高くで買えませんでした。無料トライアルの今ならその番組が英語字幕付きでみられます。契約している大学も多いと思いますので、アクセスできる方は是非ごらんください。舞台はLondonとCambridgeですが、私がいたCambridge大学の研究室は昔Watson, Crickが研究していた旧キャベンディッシュ研究所の隣にありました。ワトソンが音連れたことがあるプレハブもあって、のぞいていたのを覚えています。この番組は Crickによるとかなり忠実に史実をなぞっているとのことで、Watsonの二重らせんという本を読むより、最初このドラマをみるほうが感動が深いのではないかと思いました。ブラッグとロザリンド・フランクリンが、完成した二重らせんモデルを身にやってきて二人で語り合う最後の場面は感動です。(写真はケンブリッジのMRC分子生物学研究所のノーベル賞関係展示にかざってあったWatsonとCrickが作ったDNAの模型です。ドラマにもこの模型が登場します)
この番組はロザリンド・フランクリンの協同研究者で彼女を良く知るAaron Klug(MRC LMBの所長だった方で、ノーベル賞受賞者)も作成に協力しており、実際こんな会話がかわされたのかもしれないと思われます。Klugさんはロザリンドフランクリンは本当に偉大な科学者だったと語っていたそうです。MRC LMBには彼女とKlugさんが研究していたタバコモザイクウイルスの模型が飾ってありました。(下の動画ですがAcademic Video Onlineの動画リンクなので、認証失敗とかの表示がでて絵がでないときは無視してください。ログインできる人はログインして鑑賞してください。同じ動画はDailymotionにもだれかがアップロードされていますが、字幕抜きなので聞き取りにくいかもしれません。Part 1とPart 2にわかれているようです)

Life Story

ブラッグ:模型を前にしてフランクリンにIt looks as if they have got it right.
フランクリン:Yes.
ブラッグ:I’ve given my life to crystallography.I never thought I’d live to see this.
フランクリン: It’s your work too.
ブラッグ:And yours.
フランクリン:And mine.
ブラッグ:I know how you must feel. I’m sorry.
フランクリン:I might have seen it, but I didn’t. I see it now.
ブラッグ:This race, this winning and loosing, it’s not the way I was taught to do science.
フランクリン:It doesn’t matter. モデルをあおぎみて、This is what matters.
Life is the shape it is for a purpose. When you see how things really are, all the hurt and the waste falls away. What’s left is the beauty.

様々な大学の図書館のホームページには、自宅から使える様々な便利なサイトが載っていると思いますが、コロナ感染拡大にともなってさらに新しいサービスが無料で使えるようになっているので是非大学の図書館のホームページを見てください。たとえば九州大学の図書館のニュースページをみると、先日紹介したCambridge University Pressの無料で教科書で読めるサービスへのリンクがでていますし、様々なサービスが無料で使えるようになっているのがわかると思います。九大図書館が新設した「新型コロナウイルス感染症対応 特設ページ」には上のリンク集以外にいろいろ参考になるリンク(ログインしなくても使えるサービスも含む)がありますので学外の方もふめてご参照ください。ログインなしで無料で使えるサービスリストも同じところにでていますので九大以外のかたも是非ニュースページをご覧ください。たとえばこんなのがのっていました(九大図書館のニュースから引用。詳しくは上のリンクを参照してください。)


期間限定の無料アクセスなど(認証不要)

※新型コロナウイルス感染症拡大への対応として、各社のご厚意により提供して頂いております。

Project MUSE
50以上の出版社の電子ジャーナルと電子ブックを無料で提供しています。
出版社及びアクセス可能範囲・期限の一覧
おおむね2020年6月30日まで無料アクセス。

Annual Reviews
全ての電子ジャーナルを無料で提供しています。
2020年4月30日まで無料アクセス。

Royal Society
全ての電子ジャーナルを無料で提供しています。
当面の間、無料アクセス。

雑誌記事索引データベース ざっさくプラス
2020年5月31日まで無償公開。

Springer
教科書などを無料で提供しています。
タイトルリスト
2020年7月31日まで無料アクセス。

ACM Digital Library
2020年6月30日まで無料アクセス。

私の口演動画の紹介を含むページを作っていただきました

以前、分子生物学会・生化学会の合同大会2017でランチョンセミナーをさせていただきました。その動画は以前紹介したようにYouTubeにでていますが、このたび、シュプリンガー・ネイチャーが電子ブックに関するインタビューや動画をまとめたページを作成してくださったと連絡を受けたので紹介しておきます。

「著者、利用者が語るその魅力 ― イーブック体験談」というページです。私の動画紹介だけのページはこちらです。他にもいろいろ面白い動画がありますのでご覧ください。

写真は近所の公園で一昨日撮影した桜です。桜がはらはらと散る光景も目につくようになり、そろそろ散った桜の花びらが道路をおおうようになってきました。

ゲノム、トランスクリプトーム、プロテオームにグリコーム‥‥オームの話

OBS studioの使い方について少し補足しましたのでご覧ください。録画設定には自動構成ウイザードを使うと録画失敗が少なくなりますよという内容です。

さて今日はゲノム、トランスクリプトーム、グリコーム、コネクトームなどオームのついた言葉の解説です。簡単にいえば、オームは数学の記号のΣ(シグマ)のようなものと考えてください。genomeというのはgeneの総和Σです。transcriptomeというは、transcriptの総和Σです。connectomeというのは、神経どおしの結合様式の総和Σです。またglycomeというのは生物や組織、器官、細胞などの糖鎖修飾状態ののすべてという意味になります。
つまり、-omeという接尾語の前についている単語が表すものを全部もれなくあつめたものが、なんとか-omeの意味となります。genomeはgeneを全部集めたものの意味になりますから、発音もゲノムではなくて、ジーンの総和なのでジーノムとなります。プロテオームというのは、proteinの総和ですから、発現しているタンパク質のすべての集合の意味である、といった具合です。接尾辞の-omeについてOxford English Dictionary(OED)をひいてみると(九州大学図書館が契約しています)、以下の引用のように解説してあります。
3. Cell Biology and Molecular Biology. Forming nouns with the sense ‘all of the specified constituents of a cell, considered collectively or in total’
とあります。

genomeをOEDでひいてみると、1920年頃のドイツのでの用例からはじまり、もとは染色体のハプロイドの全体を意味しており、後にcomplete set of genes of an organism, species,organelle, etc.を意味するようになったとあります。以下引用です。

 Originally: a complete haploid set of chromosomes (of an organism, species, or    gamete). Later also:  the complete set of genes of an organism, species, organelle,   etc.
所属機関でOxford English Dictionaryを契約している方はご覧ください。
(-omeがΣの意味だというのは、以前、EMBLのバイオインフォマティクスの専門家が九大で講義されたときに習いました。)

写真の水仙は今朝撮影しました。福岡はあたたかで、梅も満開になっています。

テキストデータをどんどん蓄積していくソフトの紹介その3―詳しいTextclipperのclipfileツールの使い方です

前に紹介したTextClipperのクリップツールの一つclipfileを作者の吉村隆樹さんがバージョンアップしてくださいました(2018/11/28)。前のバージョンを使っている方は新しいバージョンにしてください。ここからバージョンアップ版をダウンロードして解凍してできたclipfile.ctaファイルをtextclip7962フォルダ中に上書き保存するだけです。以前のバージョンでは保存日時の年号が正しく入らなかったのですが、今回のバージョンアップで2018がちゃんと入るようになりました。吉村さんによると典型的な2000年問題だったそうです。バージョンアップをお願いして数時間で新バージョンを作ってアップロードしてくださいました。吉村さん、どうもありがとうございました。

以下では先日紹介したTextClipperのクリップツールclipfileの使い方をもうすこし詳しく紹介しておきます。
1)まずTextClipperをここからダウンロードしてダウンロードしたzipファイルを解凍してください。解凍してできたフォルダがtextclip7962という名前になります。このフォルダはProgram Filesのフォルダには入れないでください。入れると動きません。このプログラムを使用するには7-zip32.dllが必要です(バックアップ時)のでここから取得してください。

2)ここまでの作業でtextclip7962というフォルダができました。バージョン番号がフォルダ名になっていますね。TextClipper本体はこのフォルダの中にあるtextclip.exeです。これをダブルクリックするとTextClipperが起動します。このソフトの使い方については

http://www.hi-ho.ne.jp/makoto_watanabe/tc/index.html などをみてください。

では次にclipfileというクリップツール(TextClipperの機能拡張のようなものです)をインストールしましょう。これはブラウザにかぎらずMS WordやAcrobat Readerで表示しているpdfファイルなど、任意のソフトで表示しているテキストを選択し、それを規定の名前のテキストファイルTc_txt.txtに次々と保存できるツールです。
一つのテキストファイルに、保存日時と出典、および保存時に追加できる任意のキーワードとともに保存してくれます。新しくクリップしたテキストはもとのテキストファイルの末尾に追加されます。これを使うと、ネットサーフィンで見つけたテキストをキーワード付きでテキストファイルで保存できますので、あとで秀丸など適当なテキストエディタでgrep検索して簡単に探し出すことができます。保存するときに将来検索の時に思いつきそうな、選択したテキストには含まれないキーワードを追加しておけるので、後々の検索時に探しもれが少なくなるのもこのツールの便利な点です。

3)では、clipfileを使えるようにしましょう。
以下のurlからクリップツールのclipfileを選んでダウンロードします。
http://takaki.la.coocan.jp/freesoft/textclipper/
ここをクリックしてダウンロードしてもいいと思います。clipfile.zipがダウンロードできますので、前に紹介した7-Zipなどのソフトで解凍します。解凍してできたclipfile.ctaというファイルを上の2)でできたtextclip7962のフォルダにドラッグして移動させます。これでclipfileを使う準備ができました。

4)TextClipperを起動して、clipfileを使ってみましょう。
まずTextClipperを起動します。

上の図のヘルプの左にある、環境設定を選び、

開いてでてくるメニューでクリップツールキーをAlt+cなど好きなキーの組み合わせに設定します。

これでAlt+Cを押したらクリップツールが動くように設定できました。

5)では、実際にテキストを適当に選んでスクラップブックのようにテキストファイルに保存してみましょう。
まずTextClipperを起動しておいてください。そのあと、ブラウザなどで適当なサイトを訪れて、保存したいテキストを選択し、さっき決めておいたクリップツールキー(Altをおして同時にCを押す)を押します。すると下の画像のようにポップアップメニューが開いて一番上に「TextFileに追加」がありますのでこれを選択します。
するとキーワード入力のポップアップ画面が開きますので、あとで検索に便利なキーワードを入れます。複数入れても構いません。自由に入力しましょう。

保存ボタンをおして完了です。Tc_text.textという名前のファイルに上の選択した部分が出典の一部、日時、キーワードとともに保存されているはずです。

ではうまく保存できたかどうかをtextclip7962フォルダ内にできているTc_txt.textというファイルを開いて確認しましょう。出典、日付、キーワード、クリップしたテキストの順に保存されていたら成功です(下図参照)。

上の例では、私の去年の学会でのランチョンセミナーの講演動画がでているYouTubeのページにあるテキストをクリップしたテキストの後に、今しがたクリップした論文のテキストが追加されています。N型糖鎖、先天性グリコシル化異常症などとあるのは、さきほどつけたキーワードです。その下にクリップしたテキストが保存されているのがわかります。

このように、ちょっと気になったテキストを、どんどんクリップして蓄積しておき、あとで秀丸エディタなどのテキストエディタのgrep検索機能で検索します。grep機能についているタグジャンプ機能を使えば該当するクリップしたテキスト全文のある場所に容易にジャンプすることができます。テキストファイルのサイズが大きくなってきたら、Tc_text.textファイルの名称をTc_text1.txtなどすきな名前に変更します。次にclipfileツールでクリップしたら、自動的にまっさらなTc_txt.txtファイルができてそこに保存されますので、またゼロからクリップがはじめられます。

こうしてできた大量のクリップファイルを一斉に grep検索したら何年にもわたって蓄積したデータを一瞬で検索できて便利です。データはテキストファイルですので、加工も活用もきわめて簡単です。英語論文の例文集の作成、アイデアメモの作成などいろいろな用途につかえるすばらしいツールですので是非活用してみてください。

写真は福岡で撮影したイチョウです。とてもきれいに黄葉しています。秋も深まってきました。

 

AntConcの使い方と活用法その2―自分専用の英語論文例文集(コーパス)の作り方pdftotextの使い方

前回紹介した英語論文用の例文集に使えるAntConcはテキストファイルやhtmlファイルを扱いますが、最も身近な英語の例文集の素材はpdfファイルだと思います。そこで今回は英語の例文集の作成のために重宝する、「pdfファイルをテキストファイルに変換する方法」を紹介します。AcrobatやFoxit Readerなどでpdfを開いて、textファイルとして保存する方法は、pdfファイルが数百、数千ある場合は手作業では対応できません。こんな場合は、Acrobatなどで複数のpdfファイルを一つのpdfファイルに結合してからtextファイルに変換するという方法もありますが、そんなめんどうくさいことをしなくてもpdftotextという無料ソフトを使えば一括で複数のpdfファイルをそれぞれ別のテキストファイルに変換でますので、やってみましょう。

まずpopplerというpdfを扱うプログラミングライブラリ(その中にpdftotextが入っています)をお使いのWindows, Mac, linux用のものを選んでダウンロードしてインストールします。linuxではsudoコマンドでpopplerをダウンロードしてインストールできますし、Mac版もアプリストアからダウンロードできるはずです。私が使っているWindows 10やWindows 7のPCの場合については、ここに詳しいインストールの仕方が書いた記事がでているのを見つけました。大変丁寧に書いてありますのでそのよく読んでインストールしてください。私もこの記事のとおりにインストールして利用しています。

私はCドライブ直下にpoppler-0.68.0というフォルダ(ダウンロードしたPopplerの圧縮ファイルを解凍(解凍ソフトは註1をみてください)してできるフォルダ名のままコピーしただけです)を作り、その直下にあるbinフォルダ(binaryフォルダの意味で、実行ファイルが入っているフォルダのことです)に自分の必要なpdfファイルを集めてテキストファイルに変換しています。shareフォルダの下にはpopplerとrenameしたデータファイル(上述のホームページにあるリンク
https://poppler.freedesktop.org/poppler-data-0.4.9.tar.gz からダウンロードしたpoppler-data-0.4.9.tar.gzファイルを解凍したもの。註1参照)をおいてください。あとは以下のコマンドを記述したバッチファイルをテキストファイルエディタで作ることが必要です。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

このコマンドをテキストファイルエディタにうちこみ、できたファイルに適当な名前(pdf2txt.batとかすきな名前)をつけて保存します。保存のときデフォルトではテキストファイルで保存されれウため、pdf2txt.txtになりますのでファイル名の変更でpdf2txt.batにするか、保存時に.batで保存してください。保存場所はpdftotextのあるフォルダ(上の例ではbinフォルダ)にします。

あとは、変換したいpdfファイルを上のbinフォルダにコピーして、コマンドプロンプトでpdf2txt.batファイルを実行するだけです。日本語のファイルも英語のファイルもともにテキストファイルに変換されます。(invalid font weightというエラーが出るかもしれませんが無視してよいようです。不都合があったら教えてください。)

以下はコマンドプロンプトが初めての人むけの簡単な説明です(註2参照)。

バッチファイルというのはwindowsのコマンドプロンプト(windows7では「すべてのプログラム」の部分をみていくと、アクセサリフォルダの下にあります。windows10では下の図の左端の写真ようにシステムツールの下にあります。)でファイル名を入力してエンターを押すと、ファイル内に書いてあるコマンドを逐次実行するというものです。

矢印のコマンドプロンプトをクリックして起動するとき右クリックで、管理者として実行を選んで起動しておくと管理者としてログインしていないときにおこるトラブルをさけられますので注意してください。

今回のバッチファイルは以下のような内容で動きました。

for %%i in (*.pdf) do (pdftotext %%i %%i.txt)

意味は、iという変数にpdfのファイル名をいれ、それにpdftotextコマンドを実行してpdfのファイル名(%%i)のついたテキストファイル(%%i,txt)を作るという操作をフォルダ内にあるすべてのpdfファイル(*.pdfというワイルドカード*を使っている部分で、任意のファイル名のpdfファイルを表しています) がなくなるまで一個ずつ繰り返す(for    doの部分)というものです。

コマンドプロンプトを上に説明したように起動すると、黒いバックに白い字の画面が開きます(上の真ん中の図)
自分の今いるディレクトリ(フォルダ)の名前が表示されています。これから目的のpopplerのフォルダを探すとき、たとえばCドライブの直下にpopplerのフォルダがあるなら、コマンドプロンプトでcd ..(cdとうって、ピリオドを二回うちます)というコマンド(これはディレクトリを上に登って行くコマンドです)を何回かうってディレクトリをC:¥>にします。上の図の右端の図。
dirとうつとディレクトリやファイルの一覧が表示されます。
popplerのフォルダへ移りたいのでcd poppくらいまでをタイプしてあとはタブキーを押してください。タブの自動補完機能でcd poppler-0.68.0と自動入力されます。(このタブ補完の機能はlinuxで重宝するのですがWindowsのコマンドプロンプトでも利用できますので活用してください。) enterキーを押すとC:¥poppler-0.68.0>と表示されてディレクトリを移動したのがわかります。ここでdirとうってenterを押すとディレクトリ内のファイルとフォルダが表示されます。プログラムファイルのあるbinのフォルダ(ディレクトリ)があるのを確認してください。cd binとうってenterを押すとbinのディレクトリに移動します。C:¥poppler-0.68.0\binとなっていたら成功です(上の右端の図)。再びdirとうってenterをおします。これでこのbinフォルダ内にあるすべてのファイルとフォルダが表示されます。あとはそこにコピーしてあるバッチファイルpdf2txt.batを実行する(コマンドラインにpdf2txtとうってenterを押す)と、自動的にファイル名のついたtxtファイルができあがります。

こうして一括でpdfファイルをテキストファイルに変換したら、あとはこれらのテキストファイルをAntConcに読み込んでコーパスとして論文を書くときに参照すればいいわけです。

もちろんテキストファイルですから、テキストファイルを一括検索して、検索結果にタグジャンプして参照できるgrepコマンドも使えます。適当な、grepコマンドが使えるエディタ(たとえば有料ですが秀逸なエディタでおすすめの秀丸エディタ)でpdfの内容を串刺し検索するのもよいですね。pdfgrepというソフトもあって、これを使えばpdfファイルのままでgrepができるそうです。これはまだ使っていません。windows版をダウンロードしてさきほどのbinファイルにコピーしておけば、コマンドプロンプトで使えるのですが、linux版とちがって検索語がハイライトしなかったりしてまだ使いこなせていません。興味のある方は使ってみてください。

註1:圧縮ファイルの解凍には私は7-zipを使っています。たいていの圧縮解凍はこれでできます。
註2:パスの通し方とかは説明しないでpdftotextを使う方法を説明していますので、良く知っている方はパスを通して適当な場所にpdftotextをおいて使ってください。

AntConcの使い方と活用法その1―自分専用の英語論文例文集(コーパス)の作り方

京都でひらかれた大学の同窓会にでかけたりして更新が遅くなりました。京都は快晴で、まだもみじの季節ではなかったですが美しかったです。しかし観光客が多いこと多いこと。スペイン語や中国語、韓国語、さらにはノルウエーの旗を立てた団体もみかけました。

さて、昨年の分子生物学会のランチョンセミナーの中でAntConcというフリーソフトウエアの紹介をしました。英文を書くときに自分専用の例文集を作っておいて、それが簡単に検索できればとても役立ちます。前回紹介したTextClipperで役にたちそうな例文をテキストファイルに集めておいて、AntConcというフリーウエアでコンコーダンス検索してヒットした例文を参考に英語を書く方法を紹介します。もちろん自分の関係分野の論文のpdfをテキストファイルに変換して集めておき、それをAntConcで検索してもいいわけです。pdfをテキスト化するには、pdfをAcrobatなどで開いておいてtextファイル形式で保存するのも一つのやり方ですが、一斉にpdfをテキスト化するならLinuxやWindows、macなどにあるpdftotextといったソフトを使うのが便利です。ウインドウズにもこれが含まれているLooperというソフトがありますのでそれを使うといいでしょう。これについては次回紹介します。

それではAntConcの使い方の解説をはじめます。AntConcはコンコーダンスソフトウエアという種類のソフトウエアで、検索語を入力するとテキストファイルからその単語を拾い出し、文中に含まれるその単語の前後をふくめて表示してくれるソフトです。単語の文中での出現頻度などその他の様々な情報もわかります。まず早稲田大学のLaurence Anthony先生ホームページから自分のパソコンのOS(mac, windows, linux)にあったソフト(無料です)をダウンロードします。ここのリンクをご覧ください。
AntConcのホームページには、YouTubeの解説動画や日本語の解説pdf(バージョン3.2,2の解説ですがとても参考になります)などへのリンクもありますので適宜参照するといいでしょう。
ダウンロードしたファイルは実行ファイルなのでダブルクリックして起動します。詳細な使い方は先生のhelpファイルのpdfがあるのでダウンロードしてみてください。

写真はダブルクリックして起動した直後の画面です。起動時にはConcordanceタブが開いています。 Fileメニューが上にあります。Fileメニューをクリックするとプルダウンメニューが開き、その一番上にあるOpen File(s)を選んで検索したいファイル(複数選択可能です)を読み込みます。(下の図)

複数のファイルを読み込んで串刺し検索もできます。またOpen Filesの下のOpen Dirを選ぶと、フォルダ(あるいはDirectory)内にあるすべてのテキストファイル(とかhtmlファイル)を検索してくれます。こうして必要なファイルを開いてやると以下のような画面になります。
下の写真は私達の論文(AkiyoshiさんのCGGDBデータベースについての論文をpdfからテキストファイルにしたものでcggdb.txtという名称にしました)を開いたところです。
Current Filesというところに検索するファイル名が表示されます。複数選択した時は選択したすべてのファイルが列挙されます。
では検索してみましょう。resultという単語を検索することにします。Search Termの部分にresultといれて検索窓の下にあるStartボタンを押して検索してみましょう。(このとき右にあるwordsにチェックをいれています(下図参照)。単語としてのresultが検索されます。Caseにもチェックをいれると大文字小文字の区別をして検索できますし、Regexにチェックを入れると正規表現(Perlタイプのもの)が検索に利用できます)ヒット数は上のほうのConcordance Hits に表示されます。

6個ヒットしています。注意したいのはWordsにチェックを入れた状態で、resultを検索するとresultsは検索されないことです。Wordsのチェックを外してresultとして検索すると、resultだけでなくresultsもresultedもresultingもひっかかってきます。(下図)

ヒット数が57となっているのがわかると思います。
Concordanceメニュ―では、resultというキーワード(Key Words)が文のコンテクストの中で(In Context)どのように使われているかが表示されています。この表示を略してKWIC表示といいます。結果の表示法は、いろいろ下のメニューで変更可能です。たとえばSearch Window Sizeはデフォルトで50文字(腱索キーワードの前後50文字ずつ)となっていますが、これは増やしたり減らしたりできます。ちょっと表示を左右に広げてみるとよくわかります。

Search Termの検索窓の下のほうにKwic Sortとあるのは、検索結果のソートボタンです。

図ではLevel 1が1R(キーワードresultの右の語でアルファベット順にソート)、Level 2が同じ右の単語の場合は、キーワードの二番目の単語でさらにソートします。それがLevel 2 2Rという部分です。Level 3は三番目の単語でさらにソートとなります。もしresultの左の単語でソートしたいときは、Level 1以下の部分を下向きの矢印ボタンを何回かクリックして、下の図のようにかえて、Sortボタンを押してください。

すると検索キーワードの左の単語で再ソートされますので、resultの前にくる単語がわかります。

次にKWIC画面で表示されている原文をみてみましょう。みたいヒット行の青字で表示されているキーワードをクリックしてみましょう。クリックした文を含む原文がFile Viewタブが開いてそこに表示されます。

Hit Locationという部分の上下の矢印をクリックすると、前や後のresultを含む原文が表示されます。カーソルをFile View画面で動かせるようにしておくと、マウスの中央ホイールをくるくるまわして前後のresultを表視することもできます。

皆さんもご自分でつくったテキストファイルやテキストファイル群をこのソフトで開いて遊んでみてください。大変有用なソフトです。ちょっと長くなったので今回はここで止めます。次回はAntConcのその他の機能と、どうやってpdfからtextファイルを作るかについてpdftotextの使い方を紹介したいと思います。

写真は元寇のとき筥崎宮が避難していた場所を訪れたときのものです。とてもいい天気で気持ちがよかったです。バス停をおりると案内板があって、650mほどのぼりの道を行くと古い社があって記念碑がたっていました。人はだれもいません。一番最後の写真は帰りの川面です。波紋がきらきらと川底に映えてハヤも泳いでいました。このへんはホタルも初夏には見られます。

プレプリントサーバーとその活用法の紹介4―最新情報の追加です

このブログではプレプリントサーバーの活用について紹介してきました。いつも多数のアクセスありがとうございます。写真は近所でみかけたくずの花です。秋も深まってきました。

何度もNIHのVideoCastを紹介していますが、数日前に米国のポスドクの現状とポスドクとしての能力、存在感をアピールするのにプレプリントを発表することが薦められるという講演があったので紹介しておきます。Jessica PolkaさんのNIHでの講演で、米国のポスドクの現状、最初のfirst author(筆頭著者)の論文を発表するのに要する期間が、これまでになく長くなっており、論文が少ないので研究費を獲得したり、次の職を得るのに困難を覚えるポスドクが増えているのに対する対策、そして査読する能力をどのように向上させるかなどを扱っている、興味深い講演でした。
講演のスライドはここをクリックするとダウンロードできます。Google documentに保存してあるのでFirefoxではうまくいかないので、Google のブラウザChromeかInternetExplorerでアクセスしてください。青字で閲覧のみとか書いてありますが、スライドはダウンロードできます(開いたページの「ファイル」をクリックして開き、「形式を指定してダウンロード」を選んで、Powerpointやpdfなど好きな形式でダウンロードしてください。講演は高画質でダウンロードできますので、たとえば1240kの高画質でダウンロードして、適当なメディアプレーヤーでみればゆっくり講演を聴講できますのでお試しください。ハイビジョンの高画質のムービーでもみられるメディアプレイヤーとして、私はMPC-BEというフリーソフトを使っています。

JessicaさんはASAPbio(エイサプバイオ)という組織―ASAPbio (Accelerating Science and Publication in biology) is a scientist-driven initiative to promote innovation and transparency in life sciences communication. We are a 501(c)3 nonprofit incorporated in the state of California―に属していてプレプリントの利用を推奨するとともに、ポスドクのキャリアパスについても研究している方です。

講演にもありますが、論文に要求されるデータ量が激増していいます。それで昔は4年の大学院(米国の例)の場合、平均3-4年で筆頭著者の論文first author paperがでたが今では平均4-5年と論文の出版が遅れるようになっているようです。これは論文として出版されるために必要な実験量が昔の倍以上になっていることも原因であり、以下の論文で具体的に実証されています。論文中の実験量は図のパネルの数―つまりFig. 1A, Fig. 1B,. Fig. 1Cなどどある場合のA,B,Cなどの数―を数えてそれにTableの数などを加えて算出してます(註1)。下の論文やこのビデオをみてもらうとデータがありますのでご覧ください。実験量が増えたことで、論文として完成するのに時間がかかり、ポスドクや院生が論文をだすのが遅くなってしまうわけです。これは日本で多い5年プロジェクトなどでも経験しますが、ポスドクや院生や研究者にとって深刻な問題です。それをどうして救うかというのがこの講演の内容です。プレプリントを活用できるというのがこの講演の一つのメッセージです。(註1:私見ですが、さらにグラフの場合、統計処理するためサンプルのサイズN=30とかになることがよくありますので、一つのパネルといってもそこには本当に多数の実験が繰り返されている場合があり、これをカウントするともっと実験量が増えると思います)。

Accelerating scientific publication in biology
Ronald D. Vale

プレプリントのメリットは、いろいろあります。
メリットその1) 去年あたりから、グラントの申請や業績報告書にプレプリントを掲載することができる組織が激増しています。つまり就職活動や研究報告、新しい研究費の申請のときに、業績としてプレプリントが使えるようになっているわけです。
日本の方に関係あるところでは
Human Frontiers Science Program (December 12, 2016)でもプレプリントが利用できます。“The Board of Trustees of the International Human Frontier Science Program Organization (HFSPO) has decided that for competitions starting in calendar year 2017, applicants may list preprint articles in the publication section of HFSP proposals. Current HFSP awardees are also permitted to cite publications which are deposited in freely available preprint repositories in interim and final reports to the Organization.”

といった具合です。Wellcome Trust , MRCやNIH, HMMIなど大手のグラント母体もそういう方針になっています。これもASAPbioのページにリストがあります。

プレプリントについては以下のページ(ここをクリック)がまとまっています。またpreprintについて投稿してみた人の経験がこのリンクに動画と画像で紹介されています。

プレプリントサーバーは以前にも紹介しましたが、最新のプレプリントサーバーのリストがありますのでご覧ください。Research Preprints:ServerListというページです。

ここにリンクがあります。

メリットその2) プレプリントを公開すると学会の講演のように、研究者の存在感を示すことができます。

メリットその3) フィートバックがくるので論文を改善できます。bioRxivの場合は10%ほどにコメントがつくようです。他の人にコメントをみられたくないという人も多くて、そんな人は著者にemailしてきたり、twitterやFacebookなどのSNSでコメントをくれるようです。プレプリントサーバーのコメントは公開前にチェックが入っているので炎上とかなないようです。

メリットその4) 雑誌の編集者はプレプリントをみていますので、プレプリントをみてうちの雑誌に投稿してくださいといってくることinvitationも結構あるそうです。(PLos GeneticsやProc. Royal Society Bなど)

メリットその5) 研究の早い段階でプレプリントをみて連絡してくる共同研究者が見かる例も多いそうです。

メリットその6) いつどんな研究をしたかを、公開のプレプリントサーバーに記録としてのこせる(doiもプレプリントに付与されますし、プレプリントの引用を許している雑誌も増えています)上に、バージョン管理もできる。

メリットその7) 就職や研究費(グラント)申請の時、研究者としての生産性を示すことができる。これは上にも述べました。今までは論文を投稿してからアクセプトされるまでは業績や研究成果に載せられないことが多かったのですが、プレプリントを業績として認める組織が増えているので大きなメリットです。

メリットその7) そしてなによりも発見を加速させることができるのが最大のメリットでしょう。

では不安点はというと:
I’m going to get scooped!というのが最大の不安なのではないでしょうか。しかしこれは簡単にはやれないと思われます。論文の内容をプレプリントでみて、それをもとにもっとよい論文を書くというのですが、これをやるのはほぼ不可能だと思います。アイデアとか実験とかはプレプリントに書かれており、投稿日もバージョンも公開されているので剽窃は困難です。アイデアや方法、結果のクレジットを早々ととって、研究成果を共有するメリットのほうがいまや大きくなってきているようです。物理とかコンピュータサイエンスの分野でのプレプリントの経験から、scoopするのが困難でリスクをともなうことは明らかなことだと思います。その他の考える不安点も講演で議論されていますのでご覧ください。

どの雑誌がプレプリントへの投稿前の掲載を許可しているかは、ここをごらんください。

またプレプリントの雑誌会というのもネット上にいろいろあるのでその紹介やレフリーのコメントなどを公開する動きが加速しているという話も講演にあります。

 Firefox ESR版の重要な更新についてのお知らせ―古いアドオンがとうとう使えなくなりました

台風の大きな被害が各地で報道されていましたが、今度は大きな地震にみまわれてしまいました。被災した皆様に心からお見舞い申し上げます。また救出作業や停電やライフラインの復旧など、様々な活動に日夜尽力されておられる皆様に心から感謝いたします。

 

今回は以前からFirefox ESRを使っていた皆さんへのお知らせです。

とうとう本格的にFirefox Quantum最新版への移行が必要になりましたね。Firefox ESRがFirefox Quantumベースの最新版になったため、自動更新にしている方は今までESRで利用していた古いアドオンがほとんど使えなくなっていると思います。また手動で更新したら、せっかくESRにして使い続けていたESRでしか動かなかった古いアドオンが使えなくなってしまいますので気をつけてください。たとえばScrapBookとかです。ScrapBookは便利なアドオンですので、最新のFirefoxに対応してもらいたいものです。要望はあるようですがなかなか開発されないようです。その点、Life Science Dictionaryはすぐに最新版に対応してもらって本当に良かったと思います。 FirefoxChrome版のありかを念のためにリンクしておきます。

以下に前のバージョンのFirefox への戻し方を書いておきます。
ただ古いFirefoxではセキュリティーアップデートが継続されませんので、使い続けることはおすすめできません。それでたとえばScrapBookの場合だったら、データを書きだすなどしてこれ以降は古いバージョンのFirefoxを使わないのがよいでしょう。最新版に自動アップグレードされてしまって、古いアドオンをどうしても使う必要がある(バックアップのためなど)ときの対処法を書いておきます。(私のwindows10ではうまくいきましたがその他のシステムでは試していません)

1)新しいFirefox(60番台のESR版)では今まで使っていた多くのアドオンが使えなくなっています。では記憶させていたログイン情報とかパスワードとかはちゃんと自動アップデートされたFirefoxに記憶されているでしょうか。念のため、ログイン情報やパスワードがちゃんと新しいFirefoxに移行されているかどうかを確認してください。このFirefoxをこれからいじりますので、これらが消えてしまうと大変です。さらに念をいれて、以下のやり方が失敗した時に備えて、私はログイン名とパスワードを表示した画面をデジカメで撮影しておきました(パスワードなどを書きだすアドオンが動いておればそれで書きだしてもいいです)。

では古いFirefoxに戻しましょう。

2)自動更新で新しくなってしまったFirefox Quantum ESR版のFirefoxを起動し、ヘルプメニューにあるトラブルシューティング情報という項目をクリックしてみてください。プロファイルフォルダへのリンクがあるのでクリックしてプロファイルフォルダの場所を開いてください。Firefoxはプロファイル(profile)フォルダというフォルダにログイン情報とかブックマークとか、アドオンの情報などすべてを集めていますので、これさえあればトラブルがおこっても大丈夫、ちゃんと動いていた時のFirefoxに戻すことができます。どこか好きなところにこのプロファイルフォルダを中身ごと全部コピーしてバックアップとしてとっておきます。これがあれば最悪、自動アップグレードした状態へもどれます。

3)古いFirefoxに戻すやり方は簡単です。自動アップグレードされる前の古いバージョンのFirefox 52.9.0 ESRのインストーラー(以下にありかを書いておきます)を使って、インストールします。 デフォルトでインストールすれば、古いバージョンが復活するはずです。必要なアドオンを起動して、使え困りまりますので、ツール、オプション、詳細と選択して、更新をクリックし、更新を自動的にインストールするのチェックを外して自動インストールしないようにしておきましょう。

自動更新される前のFirefoxESR版ですが、昔インストールしたときのインストーラファイルがあればそれを使います。なければ以下のftpサイトからダウンロードできます。Mac版、Windows版、Linux版など昔のものから最新のものまでいろいろそろっていますので、必要なインストーラーをダウンロードして、インストールすると、更新される前のバージョンに戻ります。

ひとつ前のバージョン52.9.0esrここにあります。 ウインドウズ版は win64のディレクトリをクリックして開いたフォルダからダウンロードできます(win32は32ビット版)これは前にインストールしてあったScrapBookが使えますが、停止されておりaddonのインストールメニューから探して再インストールする必要があります。もう少し古いもの52.7.3esrここにあります。これはインストールするとすぐにScrapBookが使えます。

覚えておくといいのはプロファイルフォルダの管理のことです。実は私はFirefox Quantumをめったに使っていませんので、以下はFirefox Quantum以前のFirefoxでしか試していません。Firefox Quantum ではうまくいかないかもしれませんので注意してください。

プロファイルフォルダにはブックマークだのアドオン情報などがすべてあつまっていますので、別の パソコンにFirefoxをインストールしたとき、もとのパソコンの情報をそっくり引き継ぐのは新しくインストールしたFirefoxのプロファイルフォルダの中身を、前のパソコンのプロファイルフォルダの中身にそっくり置き換えれば可能です。私が退官するときに古いパソコンのFirefoxの設定をプロファイルフォルダのコピーで別のパソコンへ移しました。もう少し詳しく書くと以下のとおりです。

新しくFirefoxをインストールしてできたprofileフォルダの場所を上と同様にヘルプメニューのトラブルシューティング情報から探します。探し出したプロファイルフォルダの中身を全部消去します。空にしたプロファイルフォルダをクリックして開き、そこに先ほどコピーしておいた設定を移行したいFirefoxからコピーしておいたプロファイルフォルダの中身を全部選択して丸ごとコピーするといいです。こうすると、昔のFirefoxがよみがえります。

写真は道端に咲いていた月見草です。


					

糖鎖科学の最新のビデオの紹介です―NIH VideoCast

NIHのビデオキャスト糖鎖科学デーの講演会のビデオがアップロードされています。NIHのvideocastingはNIHで公開されている講演会をビデオでみられるサイトです。ビデオのダウンロードやキャプションファイル(字幕ファイル)のダウンロードもできます。
またNIHのpodcastもあってこちらでは、videocastとaudiocast が見たり聞いたりできますので携帯とかでみるのに便利です。

2018 NIH FDA Glycoscience Research Dayというのが、本年7月13日に開催されており、そのビデオです。この糖鎖科学の講演会と研究発表会の催しは去年も開催されており、そのビデオの内容は私の去年の九大での糖鎖科学の講義にも活用させてもらいました。今年はどんな内容なのか楽しみです。皆さんも是非ご覧ください。

ビデオはダウンロードすることができますし、画質も選べます。ビデオの掲載されているページにある下のようなリンクをクリックするとダウンロードできますので、やってみてください。このビデオは5時間ちょっとの講演会の記録になっています。英語が聞き取りにくい方は、キャプションファイルもダウンロードできますので便利です。

To download this event, select one of the available bit rates:
[64k]  [150k]  [240k]  [440k]  [740k]  [1040k]  [1240k]  [1440k]  [1840k]

生命科学系の英語の講演会のサンプルとしても使えますので、自分で英語で講演するときの参考にもどうぞ。またスライドがビデオにうつっていますが、高解像度のビデオをダウンロードすれば、字も絵もきわめて高画質でみられますのでとても便利です。この記事は高画質版をダウンロードしながら書いています。 (今終わりました。1.5Gのサイズだと40分弱かかりました。)

毎日暑いです。写真は車で夕方涼みにいったダムからみた博多湾です。ひぐらしが鳴いてとてもきれいな公園でした。