MRC LMBのバイオインフォマティクス入門ビデオ―バイオインフォマティクスのミニマム・エッセンシャルズを学べます!

MRC LMBのバイオインフォマティクス入門ビデオの紹介です。
これはバイオインフォマティクスを鳥瞰図的に紹介してどんなツールやデータベースがあるか、バイオインフォマティクスを使いこなすには何を学べばいいのかを紹介するTim Stevensさんによる講演動画です。バイオインフォマティクスのminimum essentialsを学べる大変優れた動画ですので、バイオインフォマティクスに興味のある人すべてにおすすめできる動画です。是非ご覧ください。
MRC Laboratory of Molecular Biologyで去年開催されたBiophysical Techniques Course 2022の講演の一つです。(以前このブログで紹介したことがあります。)

https://youtu.be/WY46DeeneMs

たとえば統計解析の方法にはどんなものがあり、どれをどんな時に使えばいいかというスライドもありますよ。こちらからご覧ください。
https://www.youtube.com/watch?v=WY46DeeneMs&t=3122s

私は今年のTim Stevensさんの講演を先日Zoomで聴きましたが、その講演動画はまだYouTubeにアップロードされていないようです。なかなか今年の講演がアップロードされないようなら、この動画と今年の講演の差分を紹介しようと思いますので、しばらくお待ちください。

去年の講習会の動画はこちらから全部視聴できます。
https://youtube.com/playlist?list=PLQbPquAyEw4dQ3zOLrdS1eF_KJJbUUyBx

21 本の動画 があります。
The 2022 Introduction to Biophysical Techniques lecture series started on January 18th 2022. There will be 21 lectures covering many of the various biophysical techniques available within the LMB – lectures will be added to this playlist shortly after they take place.

生物学者のためのR入門教科書 (英語版)と生命科学の有用な情報満載のサイト (カナダの進化生態学のラボのサイト)を紹介します。

生物学者のためのR入門の英語サイトがあります。カナダのQueen’s Universityの研究者のサイトです。

https://colauttilab.github.io/RCrashCourse/1_fundamentals.html

R Crash Course for Biologists–An Introduction to R for bioinformatics and biostatistics と題するテキストはこちらからダウンロードできるので、興味のある方は読んでみてください。
https://github.com/ColauttiLab/RCrashCourse_Book/blob/master/ColauttiRCrashCourseNov22.pdf

開いたページの上のほうにある、2.76 MBとある行の右端のダウンロードボタンをおすとダウンロードできます。

この本の著者であるカナダの生物学者Robert I. Colautti先生のサイトは極めて有益な情報満載です。
この先生は進化生態学を、ゲノムシークエンシングを使って研究しているようです。
RやPython、Linuxなどの使い方やゲノム解析についての情報もサイトにのっていますので以下をご覧ください。

https://colauttilab.github.io/

このページの下の方にある以下の項目をまずみてください。R, Pytho, Linux, R による統計解析, 系統学や集団遺伝学、
Complete Your Skillset

Here is a current, comprehensive list of guided self-tutorials, organized by theme.
NOTE: Many of these links include multiple tutorials, which are linked at the top of the webpage.
Basic Coding

R Crash Course
Python Crash Course
Fundamental Unix

R Stats

Statistical Models
Introduction to Machine Learning
Bootstrap, Simulations, ML & MCMC

Eco/Evo

Maps & Climate Data
The Dragon Phylogeny
Population Genetics

Genetics/Genomics/’Omics

Sanger Sequence Data
DNA Alignments
High-Throughput Sequencing (HTS)
Metabarcoding Analysis

などなど。各項目のチュートリアルへのリンクがあるのが役立ちます。
サイトの始めのほうには生物学の研究の仕方についても書いてあります。
研究を始める前に知っておくべき、研究のやり方の講義へのリンクもあります。

https://courses.ibiology.org/catalog/LE/SP/
こんなコースもあるんですね。タイトルは
Let’s Experiment : A Guide for Scientists Working at the Benchとなっています。
内容の概要は次のようになっています。
Course Features

Tips and strategies for successful experimental design
Strategies to avoid bias
Insights to improve reproducibility
How to keep a good laboratory notebook
An experiment plan that you can implement immediately
Handouts, info-graphs & reading materials

ということで、学生さんの勉強や教師にも役立つ内容のようです。興味のある人は登録して受講してみてはいかがでしょうか。

NHKのコズミックフロントが面白いです。「天文シミュレーションがコンピューターの世界を変えた!?」の紹介です。

コズミック フロントは面白い番組ですね。今年小学校に入学したばかりの知り合いのお孫さんも、この番組の熱烈なフアンだそうです。幼稚園のころから見ているんですね。こういう番組は、科学に対する理解を深めてくれるのでどんどん放送してもらいたいものです。

さて先日7月13日のコスミックフロント(再放送がBS premiumで7月17日(月) 午後5:00 〜 午後6:00 にあります)は、「天文シミュレーションがコンピューターの世界を変えた!?」というタイトルで、コンピューターでブラックホールの見え方をシミュレートしたり、暗黒物質の分布を探ったりする話から始まりました。そして日本でかつて、20万円ぽっちで、当時の世界最先端のスパコンを越える1テラフロップス(毎秒一兆回の演算)ができる手作りコンピューターを作った話が詳しく紹介されていました。東京大学の杉本大一郎先生のラボで、球状星団の安定性を計算するために一から設計された重力計算専用の手作りスパコンGRAPEの開発エピソードの詳しい紹介です。杉本先生の元で、若い学生さん達ががんばって重力の計算をパイプライン方式ですすめる超高速計算回路を積んだコンピューターを作ったと言う話です。Gravityの計算をPipelineでやることから(Appleコンピューターに対抗して)GRAPEと名付けたそうです。学生さんの中にはあの「栄光なき天才たち」の原作者の伊藤智義さんもいたことがわかります。GRAPE-1のハードウエアは全部伊藤さんが配線もしてこしらえたんですね。その後のGRAPEコンピューターの発展と役割分担、だれがどのように関わったかなどを詳しく番組で紹介していて、大変面白い番組でした。見逃した方は是非、7/17月曜日の再放送でご覧ください。

ちょっとネット検索してみると、伊藤さんの本も見つかりました。
「スーパーコンピューターを20万円で創る」 (集英社新書) 中古本があります。
杉本先生のインタビューはこちらでpdfを無料ダウンロードできます。天文月報の2018年5月号から9月号にインタビューがのっていてpdfをダウンロードできます。2018年の総目次でご覧ください。
https://www.asj.or.jp/geppou/contents/#Yr2018
8月号にGRAPEとエントロピーというインタビューがありますのでご覧ください。
https://www.asj.or.jp/geppou/contents/2018_08.html
面白いインタビューです。

最後になりましたが、伊藤智義さんの「栄光なき天才たち」はお勧めのコミックです。伊藤さんが科学研究者なので、科学者への理解が深いです。これも是非読まれることをお勧めします。

英語で論文を書くときに役立つデジタルツールと、論文の書き方について

英語で論文を書くときに役立つデジタルツールやサイトなどを紹介しているブログがいろいろあります。特に有用と思われるサイトを2つ紹介します。
いつも紹介している柳瀬陽介先生のブログに大変よい記事があります。記事には私がこのブログで紹介したことがあるサイトも含まれていますが、まだ使ったことがないサイトも沢山紹介されているので是非ご覧ください。
【私家版:英語学習のためのデジタル環境整備】
https://yanase-yosuke.blogspot.com/2023/04/blog-post.html

この柳瀬先生のブログ記事の追記にある以下のサイトも素晴らしいサイトです。ご覧ください。(以下の【】内に引用しています)

【追記;以下の記事は大変よくまとまっていますのでぜひお読みください。水本篤先生(関西大学 外国語学部・外国語教育学

英語論文執筆プロセスで活用できるサポートツールhttps://mizumot.notion.site/mizumot/939978180dc8488d9951e47e5b4194d0

私がこのブログで紹介しているコーパスを活用して英文を作る方法を併用しながら、
(たとえばこちらの生命科学・医学用のコーパス検索ツールが役立ちます。https://lsd-project.jp/cgi-bin/lsdproj/conc_home.pl
柳瀬先生や水本先生の紹介されているツールを使いこなせば、論文用の英文はわりと簡単に書けるようになりました。

あとは、出来上がった論文を自分で読んだり、先生や同僚に読んでもらって、自分の意図した意味がちゃんと伝えられる英文になっているかどうかを徹底的にチェックすることが必須です。また注意点の一つですが、生成AI での日本語から英語への翻訳は危険がともないます。AIが論文で使われる専門用語を学習していない場合は、和文→英文翻訳の場合は、適当な英単語をでっちあげて英文をつくることがあります。それをChatGPTなどのAIがでっちあげた英語(以下にもそれらしい間違った存在しない医学用語とかを作ります!)だと気付ける能力が要求されるわけです。

私の経験では、ChatGPTは無料版でも有料版plusでも、私の書いている和文原稿の英訳や、英文原稿の校閲なら、できあがった英文は、私の研究室にいた最高レベルの学生達が書いた英文レベルのものに仕上がっています。ですから、英語の文法とか、冠詞とかに細かい注意をはらう必要はもうありません。もっと大事なことを検討することができるようになったわけです。大事なことというのは、

・できた英文が自分の意図する意味をちゃんと読者に伝えられるものになっているかということです。
・論文の構成は雑誌の指定する構成になっているでしょうか。
・論文の構成は、読者に自分の伝えたいことを間違いなく伝えられるようになっていますか?

論文を読む人は、できるだけ短時間で論文の結論とそれを導いた議論の正当性を知りたいと思います。
・読者のそうした要求にマッチするような論文の構成になっていますか?ぐだぐだとデータをならべて、ぐだぐだ説明していませんか?
・もっと簡潔に内容を伝えられないでしょうか?図や表をいれてもっとわかりやすくできませんか?そのデータは絶対本文にいれなくてはだめでしょうか?補遺にまわす方がよいのでは?
・論理的に論文は書けていますか?
・論文の結論は、先行研究とこの論文で示したデータからみて妥当でしょうか?スペキュレーションが過ぎる結論になっていませんか?結論や展望が書いてある場合、それは論文のデータからみると、言い過ぎではないですか?

その他いろいろ検討すべき点がでてくるので、それらを十分時間をとって検討し、共著者の意見もとりいれて、原稿を改訂していくことが重要です。その際には、ChatGPTやコーパスツールをはじめとする各種デジタルツールが、また大活躍することでしょう。

最近ネットでいろいろ調べていますが、大学入学レベルの英語力があれば、英語で論文を書くのは最早難しいことではなくなったと思います。是非、デジタルツールを活用して英文を書いて、皆さんの考えや成果を世界に発信してみてください。

ChatGPT plusの新機能Code interpreterでどんなファイルが扱えるのかを解説した記事がでていました。

「Code Interpreterでどんなファイル操作ができるのか調べてみました」
というタイトルのIT naviさんのnote記事を紹介します。どんなPythonライブラリをつかってどんなファイルが扱えるかを実験してみた結果をまじえて詳しく解説してあります。wordファイルやExcel、PowerPointファイルやpdfファイルもPython のライブラリで扱える限り操作できることがわかります。ピカチューに似た画像を創ったりする例も面白いです。またcode interpreterでは音声ファイルや画像ファイルも扱えるし、英語なら画像ファイルのOCRもできるようです。code interpreterが使えるようになると、できることの幅が格段に広がることがわかります。是非一度ご覧ください。

https://note.com/it_navi/n/n8ddee31d6cf2

twitterはこちらです。

IT naviさんのtwitterは役立ちそうです。nitterのリンクをあげておきます。
https://nitter.net/itnavi2022

Neural Networks and Deep Learning という教科書の最新版が発行されました。GPT-4についても載っています!

Neural networkとdeep learningについての教科書として定評がある本の第2版がでました。

Charu C. Aggarwal 著( Springer Nature 2023 年6月30日発行)
Neural Networks and Deep Learning–A Textbook 第2版
https://doi.org/10.1007/978-3-031-29642-0

nitterで、ログインせずにtwitterをみている時に知りました。この本は無料公開されていません。
幸い、九州大学の図書館が使える人は、九大が契約しているSpringer Linkからダウンロードすることができます。pdf版やEpub版がダウンロードできますので、Springer Linkが使える人はダウンロードして勉強するとよいと思います。transformerやattentionについても取り上げられており、GPT-4まで載っています。
最新の教科書ですのでダウンロードできる方は是非眺めてみてください。
https://link.springer.com/book/10.1007/978-3-031-29642-0
著者のAggarwalさんは、IBM( IBM T. J. Watson Research Center )のトップ・サイエンティストです。 IEEE ICDM Research Contributions Award (2015) and ACM SIGKDD Innovation Awardというデータマイニング分野で最高の賞の他、数々の賞を授賞している方です。20冊以上の本(教科書を含む)も書いています。この本の初版は日本語版もでています。あまり数学的にならないで深層学習とニューラルネットワークが学べる教科書だそうで、魅力的ですね。

これは有料本の紹介でした。今日の無料本の情報としては以前紹介したR for Data Science 第2版の書籍版がでたというニュースを紹介します。前に記事にしたようにオンラインで第二版は無料で読むことができます。こちらをご覧ください。https://r4ds.hadley.nz/
また以下の記事もご覧ください。

プログラミング言語Rの初心者向け教科書(オンライン版、無料)2冊と、Rの教材満載のサイトを紹介します。

また、RStudioを使ってRプログラミングの入門を行う講習会の教材(英語)がこちらで公開されているのもnitterで知りました。ワシントン大学での
PSYCH 548 Exploratory Data Analysis in Psychologyという講習会の資料です。スライドはわかりやすいですし、医学部の心理学科での資料ですので生命科学の人に役立つと思います。RStudio とMarkdownから始まっているので最初の部分を見るだけでも参考になります。
https://adamkucz.github.io/psych548/

ChatGPT Plusの新機能Code interpreterを使ってみましょう!

twitter ログインしないと見れない、Twitterのログインウオール(login wall)の回避法:nitter.netでログインせずにtwitterを見よう!

ChatGPT plusでコードインタプリタ―(Code interpreter)という機能が使えるようになったと話題になっています。私が受講しているUdemyのコースの講師である中村祐太先生の最新のYouTube動画で、コードインタープリターについてやさしく解説してくださっているものがあるので紹介します。昨日みましたが初心者にとてもわかりやすい良い動画だと思います。
話題のCode Interpreterってなに?」と思っている方が最初にみるのに最適の お勧め動画です。Code interpreterを使うとファイルのアップロードやダウンロードができるようになり、ファイル操作をプロンプトで要請するだけで、操作完了。その操作を行うPythonコードも作ってくれて、ダウンロードできるようになるそうです。またExcelのcsvファイルをアップロードして解析したりグラフを書いてもらうこともできます。解析結果やPython のコードは、ダウンロードできます。大変画期的な機能が導入されたようで、活用したいものです。是非この動画をご覧ください。

以下は中村先生のYouTube動画の解説(動画の下に表示される「もっと見る」を押すと表示されます)からの引用です。
ChatGPTの新機能「(コードインタープリター)」について詳しく解説し結果をパワーポイントスライドます!この新機能を使うと、話し言葉でPython コードを生成し、さらにPythonコードの実行も可能になります。

この動画では、コードインタープリターの具体的な使用例を通じて、その可能性を探ります。具体的には以下のような操作を紹介します:

・計算の実行
・csvファイルの読み込みと分析
・Pythonのコードの読み込みと解析
・画像のアップロードと加工(顔検出やトリミングなど)
・OCR(光学的文字認識)
・テキストファイルの読み込みと利用

動画はつぎのリンクからみられます。
「コードインタープリターの壮大な可能性とは?ChatGPT新機能解説!」
中村祐太のプログラミング入門ナビ
https://youtu.be/80260-E8VoI

twitterでCode interpreterは話題ですが、twitterのアカウントを作っていないので全然ツイートが見られない人もいるかもしれません。幸い、nitterがtwitterのログインウオールを回避するようにアップデートされて、nitterのインスタンスのurlでtwitterのアカウント名をいれればtwitterのアカウント内容は読めるようになりました(この記事の最初に埋め込んだ記事をご覧ください)。twitter本家の、temporaryといって始めたlogin wallの設置はまだ解除されていないようですので、困っている人はnitterを使いましょう。ただ、まだnitterでは検索機能が動かないようです。
(追記:2023/07/12朝には検索機能もnitterで復活しています。)

たとえばツイッターでこんな紹介をしてくれている人がいます。


こんなツイートもありました。

https://nitter.net/usutaku_com/status/1678391834937262082#m
役だつ新機能ですね!

twitter ログインしないと見れない、Twitterのログインウオール(login wall)の回避法:nitter.netでログインせずにtwitterを見よう!

以下の昨日の記事ですが、タイトルを今日 (7/11) 変更しました。

Twitterで市や町などの災害情報をみようとしても、ログインしてください、アカウントをつくってくださいというページにとばされてしまう仕様になって10日あまりたちました。昨日の大雨でもtwitterの情報をみられなくて困った人が多かったと思います。

今朝 (7/10) 確認すると、twitterのかわりにnitterを使うとログインしなくても読めるようになっていました。まだ読めないnitterのinstance (インスタンス)もありますが、nitter.net/アカウント名では正常に読めるようです。たとえばノーベル化学賞を受賞されたBertozziさんのtwitterはこちらからログインしなくても読めます。
https://nitter.net/CarolynBertozzi

(7/11に追記:他のnitterのインスタンスでも読めるようになっているものが徐々に増えているようです。nitterのインスタンスのurlはこちらから調べてください。)

こちらのサイトの方々が対策をとってくれたようで、詳しく経過がのっています。

https://github.com/zedeus/nitter/issues/919

”We’re back for now. https://nitter.net is up and running with an experimental patch that provides all previous functionality, except search (I have a potential fix, needs more research), without suffering from the awful rate limits imposed on the previous endpoints.

The code is on a separate branch: #927

昨夜は寝る時は雨も全く降っていなかったのですが、夜1時過ぎ雨音と雷鳴で目覚めました。雨音と雷鳴がものすごく、窓から外をみると稲妻が凄かったです。光った時はあたりが昼間ほど明るくなりました。線条降水帯が発生して停滞していたので雨と雷光は朝まで続き、福岡県に警報がでたり町にも避難指示がでたりしました。朝早くには小中学校も休校との放送もはいりJRも止まっています。今は普通の雨になっていますが、皆さんのところに被害がありませんようにお祈り申し上げます。

RやPythonを使って統計学と機械学習を一挙に学べる入門書(英語版)が無料公開されています。

今日は結構雨が降って近所の川も濁流で水音も凄かったです。
今回は、スタンフォード大学、ワシントン大学、南カリフォルニア大学の統計学者による統計学と機械学習の入門書を紹介します。どちらの本も発行以来、絶大な人気を博している教科書で、日本語訳もすでにでています。今回紹介するのは英語の原著最新版です。最初の本は、

An Introduction to Statistical Learning with applications in R (ISLR) という本で、データサイエンス入門レベルの読者が学ぶのに最適の本になっています。2013年に初版がでて、2021年に第二版がでています。2023年にはPython 版がでたところです。こちらのサイトからダウンロードできます。https://www.statlearning.com/
このページの一番下のほうに、第1版、第2版、Python版へのダウンロードリンクがありますのでダウンロードして読んでみてください。このサイトのリンクから、プログラムコードや資料もダウンロードできますし、講義のビデオもみられます。
https://www.youtube.com/playlist?list=PLoROMvodv4rOzrYsAxzQyHb8n_RWNuS1e

著者たちは数学出身ではないので、数学をあまり知らない人間のつまづくところをよく知っており、直観的、概念的に統計学を理解できるように書いてあるそうです。読むのに多変数の微積分や線形代数の知識は不要だとのことです。ネットで探してみると、日本語でこの本の詳しい紹介をしてくださっている方がいます。https://totadata.com/book_islr/
またこちらの英語の書評も参考になります。
https://qz.com/1206229/this-is-the-best-book-for-learning-modern-statistics-its-free
この書評によるとAn Introduction to Statistical Learningをマスターしてもっと学びたければ次の本を勉強するとよいそうです。
The Elements of Statistical Learning (2nd edition) Hastie, Tibshirani and Friedman (2009). Springer-Verlag. 763 pages.
この書評にある最初の本ISLRへのリンクは切れているので私が上に載せたリンクを利用してください。The Elements of Statistical Learning (2nd edition) はこちらからダウンロードできます。英語版の第二版2017年の第12刷がダウンロード可能です。
https://hastie.su.domains/ElemStatLearn/
コードその他の資料もダウンロードできるので役立ちます。この本は、カステラの箱ほど分厚いのでカステラ本と呼ばれているようです。

翻訳本のタイトルは以下のとおりです。日本語での紹介をみられます。
ISLRの翻訳本
「Rによる 統計的学習入門」  朝倉書店
https://www.asakura.co.jp/detail.php?book_code=12224

The Elements of Statistical Learningの翻訳本
「統計的学習の基礎 ―データマイニング・推論・予測」 共立出版
https://www.kyoritsu-pub.co.jp/book/b10004471.html

ChatGPTなどの大規模言語モデルの教科書ともいえる総説と、生成AIについての講演会動画を紹介します。

ChatGPTに代表される大規模言語モデルLarge Language Model (LLM)はAIの時代の到来を告げる画期的研究成果です。このLLMの教科書ともいえる論文が頻繁に改訂されながらプレプリントサーバーにアップされているそうです。中国人研究者によるLLMのサーベイ論文で、”A Survey of Large Language Models”.というタイトルです。https://arxiv.org/abs/2303.18223
これを紹介している東大の今井翔太先生のtwitterを紹介しておきます。

この論文は、GitHubに公式サポートページがあって、いろいろ有用な情報や論文の図(上のtweetにある図もみられます)や表、そして改訂情報などがのっています。The official GitHub page for the survey paper “A Survey of Large Language Models”. arxiv.org/abs/2303.18223
https://github.com/RUCAIBox/LLMSurvey
この論文では、LLMの発展史もまとめられていますし、実用的に興味があるところでは、
よりよいプロンプトを設計する方針についてもサーベイしてあります。論文内に参考になるプロント作成の原則が書かれています(p53に表があります)。これは役立ちそうです。
https://github.com/RUCAIBox/LLMSurvey/blob/main/Prompts/README.md

最後に今井先生のボスである松尾豊先生が7月4日に講演された以下の会

“東大×生成AIシンポジウム 「生成AIが切り拓く未来と日本の展望」”というタイトルのシンポジュウムのサイトとYouTube動画を紹介して今日の記事を終わります。

https://www.t.u-tokyo.ac.jp/ev2023-07-04
このシンポジュウムの第一部の動画は以下にあります。このシンポジュウムでは岸田総理の挨拶もあったようです。
https://youtu.be/Qms3DsP6NG4