ゲノム解析のおすすめの入門書を紹介します。

先日 東京女子医科大学の三谷昌平先生の講演をオンデマンド配信で拝見しました。三谷先生の書かれた総説 (Comprehensive functional genomics using Caenorhabditis elegans as a model organism.  Proceedings of the Japan Academy. Series B, Physical and biological sciences  93 (8) :561-577 , 2017.10   DOI:10.2183/pjab.93.036) の流れに従ったお話で、大変勉強になりました。御講演の最初のほうで紹介されたゲノムについての、初心者にわかりやすい入門書というのは読んだことがなかったので、早速古書で入手しました。

オンリーワン・ゲノム―今こそ『遺伝と多様性』を知ろう 単行本(ソフトカバー) –
鎌谷 直之 (著), 早未 恵理 (イラスト)という本です。

大変わかりやすく書かれている本です。これくらいは今の時代、常識になっていないとパンデミックを煽るニセ情報の波にのみこまれかねません。ゲノムについて知りたい一般の方に特にお勧めできる本だと思います。この本をネットで検索しているときに次の本が出ているのを知りました。
ゼロから実践する 遺伝統計学セミナー?疾患とゲノムを結びつける 
岡田 随象 (著) 羊土社という本です。この本、Linuxを使うのにCygwinを使っていてちょっと古いのかなと思いましたが、著者が開催されていた、2021年の大阪大学での講習会資料を参考にすれば、最新の本によみがえります。著者の岡田先生は、東京大学大学院医学系研究科遺伝情報学教室に移行されたようですが、以下のサイトに大阪大学で開催された「遺伝統計学夏の学校@大阪大学」の講義資料があります。上の本もこの夏の学校から生まれた本だそうです。本を購入して読みながら、2021年の講義資料を勉強しましょう。それが一番だと思います。http://www.sg.med.osaka-u.ac.jp/school_2021.html
この本は、ゲノム解析に必要な事柄を、いうならば、「ゲノム解析ミニマム」のように網羅して展望しており、GWASとかも詳しく解説されているので初心者に一番のおすすめです。いろんな本をあちこち読んでみるより、これ一冊を基本として読んであとは自分で勉強していくとよいと思いました。

岡田先生の2021年の講習会のスライドでは、Linuxの入門には、今後はWindows10以降使えるようになったWSL2を利用する方向に移行すると書かれています。WSL2については以下のマイクロソフトのページをご覧ください。windows11ではコマンドラインから一発でwsl2とubuntuをインストールできるそうです。wsl –install

https://docs.microsoft.com/ja-jp/windows/wsl/install
https://docs.microsoft.com/ja-jp/windows/wsl/tutorials/gui-apps

いつも思うのですが、統計学を生命科学の実験に使うのであればRをRStudioで使い、EZRから統計解析をすればことたります。あとは実験計画法とかも学んでおけばよいと思います。Rはゲノム解析やバイオインフォマティクスに利用されるので次はそういうRの使い方を学んでいけばよいでしょう。忙しい生命科学研究者ですから、統計学を数学的基礎から学ぶのは時間の無駄です。必要なら専門の統計学の先生に質問しましょう。Pythonだって、機械学習だって、生命科学に使える部分をまず学んでいくのがお勧めです。というより、それ以上学ぶのは若い人にはかえって有害な学習だと思います。特に若い人には、時間が大切なので、そういうことは止めるようにと強調したいと思います。(生命科学以外の方は自分の興味のある分野に使える内容をまず学ぶというふうに読み替えてください。)

プログラミング言語Juliaは科学技術計算に使い物にならない?

今日は忙しかったので簡単な記事で失礼します。Juliaというプログラム言語は今人気急上昇中のようです。このJuliaに否定的な意見がでているようです。https://yuri.is/not-julia/ 
Juliaのコアやパッケージがエラーだらけであるので使い物にならない。もうJuliaを使うのをやめたというような内容です。RとかPythonとかに較べると新しいプログラム言語ですので、これからの改善が望まれるわけですが、筆者によるとちゃんと改善する体制には今はなっていないとのことです。これから反論も出てくると思いますので注目したいと思います。
では世界中で十分使い込まれているpythonやRがいいのでは、ということになりますね。Pythonといえば、さっきYouTubeでJuliaに否定的な動画をみていたら右のほうにPython入門動画がでてきました。これは面白そうですので紹介しておきます。

こちらが再生リストです。https://www.youtube.com/c/kinocode/playlists
紀貫之の子孫という方の動画でどれもずいぶんわかりやすそうです。

R Markdownとは?

R Markdownというのを聞いたことがありますか?これで論文を書いて、できた原稿をWordの原稿やpdfあるいはPower Point ファイルなどに自由に変換することもできます。本を書くことも出来るそうです。

データ解析をRで行った後、できたグラフを論文やレポートに貼り付けて仕事を完成させるのは普通に行われている作業です。しかしこの貼り付けると言う作業があるため、できた論文原稿やレポートにのっているグラフや表が、どんなRのプログラムやスクリプトで作られたかがわからなくなることがあります。よくあるこうしたトラブルを避けるには、レポートや論文原稿の内部に、Rでどんな解析をしたかをプログラムやスクリプトごと書き込んでおけばよいわけです。Rマークダウンは、Rのプログラムと普通の文書を同時にレポートにうめこんでおき、必要なときにpdfやdocxファイル、パワーポイントファイルなどなどを一発で生成できる道具です。RStudioからR Markdownが使えるので、だれでも簡単に再現性のあるデータ解析結果のレポートをつくることができます。これを使えば、一番最初に書いたような、このグラフを作ったR のプログラムを探す必要がなくなりますので、完璧に再現性のあるレポートを作ることができます。本としては、おすすめは
「再現可能性のすゝめ―RStudioによるデータ解析とレポート作成― (高橋 康介著)」共立出版です。
https://www.kyoritsu-pub.co.jp/bookdetail/9784320112438

この本の第一章が特に再現可能性の必要性についてわかりやすく書かれており、なぜRマークダウンが必要かがよくのみこめます。この本を買う前に、次のスライドやリンクで概要をつかめるのでまずこれらのリンクをたどってみてください。
R Markdown 入門 (Tokyo.R #91) https://rpubs.com/ktgrstsh/755893
R ユーザー以外も知るべき R Markdown 入門/Introduction-to-R-markdown-for-Everyone https://speakerdeck.com/ktgrstsh/introduction-to-r-markdown-for-everyone?slide=3

TokyoR98 RMarkdown入門 Visual modeではじめよう (niszet, @​niszet0)
https://nitter.net/tech_slideshare/status/1522109628125179904
このスライド末尾のほうにいろんな入門サイトのリンクがありますので大変参考になります。

Rによる統計解析の最新情報が得られるブログを紹介します。

今日はRを用いた統計学などについての大変役立つサイトを紹介します。神戸大学の中澤港先生のサイトです。公衆衛生学/国際保健学 | 人類生態学 | 人口学 の先生でブログでは、人口学や新型コロナウイルスの統計解析などのほか、Rでの統計解析についての役立つ情報も随時発信してくださっています。Rによる統計解析の教科書もpdfでサイトにおいておられますので探してみてください。いろいろありますが、RとEZRの入門については今年の講義資料などが大変参考になります。https://minato.sip21c.org/ebhc/ebhc-text.pdf
余談になりますが、先生が以前の記事で触れておられた
主成分分析の理屈の理解に役立つKindle本 「多変量解析の基礎 II 主成分分析(改訂版): 理論とRによる演習 Kindle版」古橋武 (著) は250円のKindle本です。
AmazonのKindle unlimitedを契約すると無料で読むことができます。今までKindle unlimitedを契約したことがない人は、二か月間無料のお試しが5/9日までなら契約できるそうです。該当する方は試してみると、この本にかぎらず、いろんな分野の本やコミック、雑誌などを無料で読むことができます。私は去年お試しをして有料契約しなかったので、99円で二か月無料というオファーがきています。

母から聞いた不思議な体験談を紹介します

今日は科学とは関係のない話の紹介です。私の母から聞いた話です。母は幼いときに実母を病気でなくし、すぐ継母がきて奉公にだされたそうです。母が7歳の時、母のお母さん(当時29歳)が病気で亡くなる日のことでした。親戚が集まっており、私の母は病気のお母さんの隣の部屋で親戚の人に寝かしつけられていたそうです。眠っていた母がふと目をあけると、ふすまのところにお母さんが立っているので、「おかあちゃん元気にならはったんや!」、「おかあちゃんがそこに立ったはるやん!」と喜びの声をあげたそうです。しかし大人には何も見えていないようで、大人たちが、ものすごく怖がっていたと、母が話してくれました。私の母のお母さんはその日に亡くなったのでした。私の京都の家には、私の母のお母さんの位牌がありました。母が毎日その位牌に御線香をあげて手を合わせていたのを覚えています。私の母が亡くなった後、母の位牌も作って仏壇に並べたのですが、片付けているときに二つの位牌の裏を見て驚きました。私の母の命日と、母のお母さんの命日は同じだったのです。年末も近い、寒い京都の冬の日でした。

今日のリンクは以下です。明治大学金子研究室ホームページです。
https://datachemeng.com/
昨日、講談社のKindle ポイント50%セールで明治大学の金子先生の教科書を買いました。「Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析」金子弘昌著。これはとても面白い本ですのでおすすめします。また先生の研究室のホームページの上にあるタブにある「データ解析・研究者に関する情報」というプルダウンメニューをご覧ください。いろんな研究に関する知識をおしげもなく公開されているのでおすすめです。たとえば「データ解析・機械学習」のメニューhttps://datachemeng.com/summarydataanalysis/などをみてください。「学生・研究者へ」というメニューもお勧めします。https://datachemeng.com/forstudentsresearchers/
英語論文の書き方、発表の仕方などなど、様々なtipsも学べます。

機械学習とかディープラーニングの学習のてびき

タンパク質の立体構造を予測するAIが生んだプログラムAlphaFold2は、AIの有効性を実感させてくれました。がぜんAIに対する興味がでてきたのですが、ディープラーニングとか機械学習とかの勉強にはこんな本はいかがでしょうか。
「高校数学からはじめるディープラーニング―初歩からわかる人工知能が働くしくみ」(講談社ブルーバックス。金丸隆志著)
私はAmazon Kindle版をポイント半額付加セールのときに買いました。Kindleは安売りがあるので紙の本よりいい時がありますね。内容はとてもわかりやすくておすすめの本だと思います。Excelのマクロもダウンロードできるようになっていて理解が深まるいい本です。

また統計やデータサイエンスの勉強には総務省統計局のサイト(先生向け)が面白そうです。小学校から中学、高校向けの教材、補助教材などがそろっていて、統計ではRの紹介もされています。高校向けの機械学習の補助教材の部分にある教科書とそれに付随するPythonコードは、Google Colaboratoryのジュピター・ノートブックの環境で実行することにより動作しますと書かれていて、結構本格的な教材のようです。内容には。線形回帰、サポートベクターマシン、決定木・ランダムフォレスト、ニューラルネットワーク、ナイーブベイズ法、K近傍法、因子分析、主成分分析、クラスター分析、アソシエーション分析が含まれており、教材、データなどが自由にダウンロードして使えます。

左の写真はお盆のころに山際に咲いていた百合の花です。今は右の写真のように種ができています。

Mathematicaの紹介です!

ヒマワリもアサガオもそろそろ花の数が減ってきて秋を感じさせる毎日です。さて今日はMathematicaの紹介です。MathematicaはStephen Wolframという人が開発した有料ソフトで数値計算と数式処理ができますし、最近では画像や音声、信号処理、機械学習、統計解析、バイオインフォマティクスなど広範囲で利用されています。Pythonなどのプログラミング言語に比べてプログラムが格段に簡単で、自然言語での入力も可能になるなど科学の研究、学習には必須といってよいソフトでしょう。先日、微分方程式の解き方の講演があったのでオンライン参加してみました。講師の丸山 耕司先生は理論物理(御専門は量子情報、量子制御理論など)出身の方で、Wolfram社のブログなどの他、雑誌「数理科学」に寄稿されたり、「動かして学ぶ量子コンピュータプログラミング」(O’Reilly Japan)という本の監修、そして量子力学の定番教科書サクライの現代の量子力学 第2版(最近原書の第3版がでています)の問題解説(演習 現代の量子力学 第2版 J.J.サクライの問題解説)(吉岡書店)の著者の方でした。微分方程式の解き方の基本のキから学べる講義でしたので、以下のリンクから無料登録して講演をご覧になるのをお勧めします(2021/10/31までの期間限定での公開ですので注意してください。2022/2/25追記:好評につきということで、二週間ほど前にYouTubeにこの二本の動画すべてが公開されました。

です。https://www.bigmarker.com/series/solving-differentialequations-ja/series_details?utm_bmcr_source=twitterまたWolfram Japanのtwitterにこの講義の他、Mathematicaによる微分積分学入門など関連したいろいろな情報がでているので参考にしてください。リンクはこちらです。
https://twitter.com/WolframJapan

MathematicaはWolfram言語というプログラミング言語で動くソフトです。Wolfram言語は、日常言語とかわらない命令もうけつけるように設計されていて、プログラミング初心者にもきわめてやさしい、そして短いコードで、高度なプログラムが書けるすぐれたソフトウエアです。Wolfram言語の入門書としては開発者のWolframの書いたAn Elementary Introduction to the Wolfram Language 第2版がおすすめです。この開発者自身が書いたWolfram 言語(Mathematicaで使われているプログラム言語)の解説本は以下のリンクで無料で読める他、オンラインでWolfram 言語を使って学習できるので興味のある方は下のリンクにアクセスしてみてください。
https://www.wolfram.com/language/elementary-introduction/2nd-ed/

データサイエンス向けにおすすめの統計学の教科書の紹介です

インターネットをみていると、初心者向きの統計学の教科書を見つけました。「データ分析のための統計学入門 原著第4版 “OpenIntro Statistics Fourth Edition”」という本で、日本統計協会から翻訳本が市販されています。この本は訳者のお一人である国友直人先生のweb pageにpdfがおいてあるので無料でダウンロードして読むことができます。
原本のOpenIntro Statisticsという本は無料公開されており、上の訳本の中でも関連サイトが詳しく紹介されています。この訳本では問題の解答は省略されていますが、英語の原本pdfには練習問題の一部の解答が載っているので原本をダウンロードして合わせて使うとよいでしょう(上にあるリンクの本の購入ページでYou Pay 15$とある部分のスライダを左に動かして0ドルにしてcartにいれ、購入手続きでemailアドレスをいれるとダウンロードできます。0ドルの領収書がメールで送られてきます)。英語のサイトには解説ビデオ(下のほうにvideoのリンクがあります。クリックするとYouTubeビデオが開くので字幕オンにしてみるとよいです)やRプログラミング言語での勉強用リンクもあります(各章の表題の下の部分にある Software LinesというリンクをクリックするとRやRStudio、Pythonその他でのコードのページが開きます。たとえばChapter  5. Foundations for Inferenceの下にあるIntro to Inferenceの部分をクリックして開いたページでLab: R (Base)とある部分をクリックするとこんなページが開きます。Pythonコードのページとかもありますので適宜利用してください。)また訳者によるRの簡単なイントロも訳本のページ(R・エクセル・基礎数学と題したpdf)にあるのでご覧ください。データそのものはzipファイルでダウンロードできますし、こちらにはR用のデータやデータのcsvファイルなどもそろっています。またRのパッケージとしてもデータが公開されているのでR でパッケージを読み込んで使うこともできます。
医学生物学向きには同様な無料本(Harvard大学の先生が書いたものです)
Introductory Statistics for the Life and Biomedical Sciencesがあります。こちらは英語版ですが、上の本と同様にRのコードへのアクセスリンクもスライドもありますので、よかったらダウンロードして読んでみてください。

4月11日の日曜日は快晴で青空がとても綺麗な一日でした。我が家のリンゴの木にも沢山花が咲きました。

当日は県知事選挙の日。病気で九大病院に入院された小川知事の辞職にともなって実施される福岡県知事選挙の投票に歩いてでかけました。丁度お昼どきだったので会場には投票する人が、私達二人をふくめて3人しかいません。会場のコロナ対策は万全でした。換気万全の投票所ですが、まず入り口にアルコール消毒液が備えられていて手指を消毒、その後非接触型体温計で体温を測り入場します。投票券をマスクの職員の方に手渡すと、手袋した手で受け取り、アクリル遮蔽板を介してやり取りします。あとは投票用の消毒済み鉛筆と投票用紙を手渡されて記入台で候補者名を書いて投票です。鉛筆はそこで回収されます。コロナ蔓延下での選挙も何度も行われているので対策も洗練されてきた感じがします。選挙結果は予想通り、8時の開票と同時に当選確実がでるというものでした。COVID-19下での選挙制度の洗練度を確認できてよかったです。

Pythonや物理数学の無料本―春のおすすめ本

(注:このブログでは、12ポイント太字の部分はリンクです。クリックすると該当ページが開きます。)
暖かくて春めいた日が続きます。4月上旬の暖かさとか。九州大学でも前期日程の合格発表が昨日(3/08)あったそうで、ニュースで合格した学生さん達の喜びの声を報道していました。
写真は散歩の途中でみつけたスミレと つくしです。近所では1週間以上前にうぐいすの初鳴きを聞きました。

最近、Pythonの教科書を京大が公開しているのを知りました。プログラミング演習Python2019という講義の教材です。初歩からはじめてグラフィックインターフェイスでのプログラムまでやさしく指導してくれる本で本篇とコラムを集めた本の二冊があります。以前紹介した本の後に読むのに最適だと思います。Anacondaのインストールをした後、この本からPythonの勉強をはじめることも可能だと思います。

また以前紹介していた学習院大学の田崎先生の「数学:物理を学び楽しむために」という本もバージョンアップされていますので紹介しておきます。これは序文によると「物理学(とそれに関連する分野)を学ぶ方を対象にした、大学レベルの数学の入門的な教科書である。高校数学の知識を前提にして、大学生が学ぶべき数学をじっくりと解説する。」という本です。著者の田崎先生のtwitterでは「大学入試が終わって入学までの時間をもてあましている理数系のみなさんに特におすすめします。1章に目を通した後はお好きなところをどうぞ。」と紹介されています。またtwitterには物理や数学よりデータ科学や AI に興味があるという人は 7 章から始める(必要なら前の章を読む)のも一興かも。高校数学から消えた最強武器である行列がガチで学べて、主成分分析、マルコフ連鎖、Google Page Rank への応用まで!」とあります。面白そうでしょう!

夏のおすすめ本2020―その1 Rに関するおすすめ本2冊

毎日猛暑がつづきますが皆さんお元気の事と思います。今日から数回にわたって、面白そうな本、役に立つ本などを紹介していきたいと思います。第一回目はR(アール)の本です。今や統計解析にソフトの定番のプログラミング言語Rは無料で使える素晴らしいソフトですが、統計解析だけではなくゲノム解析にも活躍しているソフトです。昔はグラフィカルインターフェースがなかったのですが、今ではRのパッケージのR commanderや日本の神田善伸先生(自治医科大学)が開発されたEZR(イージーアールと読みます。これも大評判になってRのパッケージになりました)がありますので、グラフィカルインターフェースでRを使うことができて、初心者にもやさしいソフトとなりました R commanderはRをインストールしたあと、パッケージとして追加インストールして使います。EZRはR commanderの追加プラグインになっています。インストールするとどちらも日本語で使えます。EZRを中心に使いたい場合は開発者の神田先生のサイトからダウンロードして使うのもおすすめです)。また、RStudioというRの統合開発環境ソフトを使えば、Rをもっと便利にスムーズに利用することができるようになったので、Rはますます便利で使いやすくなっています。インストール法については以前の記事二つがありますので、ここここを参照してください。

今日紹介するのは、EZRの使い方を、その開発者の神田先生が解説した本です。先生のホームページにも簡単な使い方などが載っていますのでそちらも参照してみてください。

EZRでやさしく学ぶ統計学 改訂3版〜EBMの実践から臨床研究まで〜神田善伸 著(2020年10月発行)

これ一冊あれば、生物系医学系の普通の統計解析はすべて日本語のプルダウンメニューを使ってできます。私も論文のデータ解析にはこの本を主に参照しています。大変役立つ本ですので、是非一冊購入して統計解析の勉強や研究に活用してください。私は第一版を購入して使っていますが、すでに第3版がでているほどに売れている本のようです。これがちょっと難しそうという方むけに、神田先生はもうすこしやさしい初心者向けマニュアルも書かれています。全く初心者の方にはこれがおすすめです。 マンガの部分もあったりしますが、統計解析の基本をひととおり学べますし、EZRの開発秘話とかものっています(立ち読みで読めます)。

サラっとできる! フリー統計ソフトEZR(Easy R)でカンタン統計解析
という本です。立ち読みしてみて、まずこちらを買うのもありかもしれません。医療や生命科学関係の事柄を急いで学びたいという人には同じ著者の

初心者でもすぐにできるフリー統計ソフトEZR(Easy R)で誰でも簡単統計解析

がいいかもしれません。まず神田先生の簡単な入門書で学び、実験データの解析には最初の本(第3版)を使うというので、Rを使った生命科学の統計データ解析には十分だと思います。他にいろいろ本を買う必要はないでしょう。(以上2020/11/19追記)

Rはバイオインフォマティクスや次世代シークエンサーのデータ解析、ゲノム解析にも大活躍しているソフトです。最近英語の本ですが、こんな本が公開されています。
Computational Genomics with Rという本です。
紙の本や電子ブックはこの秋にでるようですが、Rをつかって出力されたhtml版が上のリンクから無料で読めます。バイオインフォマティクスの専門家による本ですので、役立ちそうです。
著者は日本にもいたことがある人で、Rのバイオインフォマティクス解析用のBioconductorの多くのパッケージを開発している方たちです。著者紹介によると、この本のほとんどを書いた方は、Dr. Altuna Akalin wrote most of the book and edited the rest. Altuna is a bioinformatics scientist and the head of Bioinformatics and Omics Data Science Platform at the Berlin Institute of Medical Systems Biology, Max Delbrück Center in Berlin.(以下略)ということで、ドイツのベルリンにあるバイオインフォマティクスとオミックスデータセンターのヘッドだそうです。まだ私も読んでいないのですが、勉強してみたい本ですので紹介しておきます。

写真は、散歩の途中で撮影した山百合と葛の花です。山百合の間によくみると葛の花が咲いているのがわかります。