機械学習で起こる致命的エラーを防ぐための本が公開されています。

Interpretable Machine Learning
A Guide for Making Black Box Models Explainable
という機械学習を使うときに知っていた方がよい大事な注意点に焦点を当てた本の翻訳版がネット上で公開されています。2021年公開ですので初版の翻訳になっていると思われます。
https://hacarus.github.io/interpretable-ml-book-ja/

原本は第二版がこちらに同じく公開されています。
https://christophm.github.io/interpretable-ml-book/
pdf版などは有料ですがオンライン版は無料で読めます。またこの本にでてくるコードはこちらにあつめられているので自分で動かしながら読めるようになっているのも魅力的ですね。
https://github.com/PacktPublishing/Interpretable-Machine-Learning-with-Python-2E

とりあえず初版の最初の物語の部分を日本語版で読んでみるとよいと思います。
https://hacarus.github.io/interpretable-ml-book-ja/storytime.html
機械学習の結果が、思わぬ事故を引き起こす話は必読です。単なるブラックボックスとしてAIを使う危険性がよくわかる話になっています。

複雑系科学の入門動画が昨日公開されました。

複雑系の科学で有名なSanta Fe Institute (サンタフェ研究所)の所長David C. Krakauerさんの講演動画がYouTubeで公開されました。
彼が書いた本The Complex Worldが9月16日に出版されたのを記念して開催された一般向け講演会の第一部です。第二部は明日公開予定だそうです。

本についてはこちらをご覧ください。
https://www.santafe.edu/news-center/news/sfi-press-announces-the-complex-world
SFI Press announces “The Complex World”
この本はまだペーパーバック版しか出ていなくてebookは年末にでるようです。

動画はこちらです。
Part One: Complex World
https://www.youtube.com/live/Jow0vVEOdrk?si=oUVmAyXb6erYvng6

複雑系の科学の勃興から現代に至る歴史をたどりながら、今後の複雑系科学を展望する講演です。
ダーウインの進化論、エントロピー、バベッジの解析機関と彼の協力者エイダが書いた世界初のプログラムなどもスライドでみせてくれます。The Complex Worldは、複雑系科学の入門書としてよい本のようでこの動画をみたら読みたくなりますね。

昔よくみかけた東京図書の数学新書シリーズの多くが国立国会図書館デジタルコレクションで読めます。

今日は旧暦の8月15日、中秋の名月の日だそうです。福岡でも秋の空が澄みわたり、きれいな月がかかっています。月のすぐそばには土星が光っています。
さて今日の記事です。
このブログでは国立国会図書館デジタルコレクションの個人送信資料でオンラインで読める本をいろいろ紹介しています。今日は東京図書から昔でていた数学の解説書シリーズ、数学新書を紹介します。このシリーズは主にソ連の数学の解説書を翻訳しているシリーズでした。国立国会図書館で検索すると多数の本がヒットしますが、残念なことに数学新書84などと表示されるだけでタイトルが一覧できません(ちなみに、この本は「十四人の数学者―微積分の創造」という数学史の本です)。それでどんな本があるのかがとてもわかりにくいのです。幸い、こちらのブログに数学新書のタイトルをまとめてくださっています。
『 『数学新書 1-100』、東京図書、1960-1972』
http://blog.livedoor.jp/dan4423/archives/5521677.html
いろいろ面白そうなタイトルがあるので個人送信資料で読めるかどうか、チェックしてみてください。たとえばこんな本が読めます。

E.T. ベル著、田中勇・銀林浩訳、『数学をつくった人びと(I-IV)』、東京図書 1962-1966 数学新書 28-31
森毅著、『積分論入門』、東京図書 1968.3 数学新書 70
『数学新書』第70,東京図書,1968. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/1371438 (参照 2024-09-17)
フレイマン著、松野武・山崎昇訳、『71十四人の数学者 : 微積分の創造』、東京図書 1969 数学新書 84
『数学新書 複素数とベクトル』第58,東京図書,1966. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/1371429 (参照 2024-09-17)

ただこのブログに掲載されている100冊が全部個人送信サービスで読めるわけではないので注意してください。読めない本もありました。

似た立体構造のタンパク質をFoldseekで探してみよう!

昨日紹介したAlphaFold DatabaseでのFoldseekの使い方をスクショを交えて説明してみます。
こちらをクリックしてみてください。https://alphafold.ebi.ac.uk/entry/P06620

人工雪を作るときの核になるバクテリアがもっているタンパク質InaZのサイトのurlで、クリックして開くのがこんなページです。

下の方に立体構造が3Dで表示されています。マウスで回転させたり拡大縮小表示したりできることを確認してください。
もっと下の方に画面をスクロールすると、Foldseekの結果が表示されているのがわかります。

Similar structuresという部分を見てください。PDBに登録されているものでヒットは0です(PDB structures (0)と表示されている部分)が、右のAFDB50 structures  (367)とある部分をクリックすると367個のヒットを見ることができます。

この図では、7個のヒットが表示されています。表になっていますが一番右の列Align in 3DがInaZとヒットしたタンパク質を重ねて立体表示するためのスイッチです。-になっているのは表示されていない状態を示します。クリックしてやるとクリックしたタンパク質がInaZの立体構造に重ねて表示されます。

前の図と較べると、チェックが入っているタンパク質の立体構造が並べて表示されているのがわかります。複数の行でクリックすると、クリックしたタンパク質が全部アラインして表示されます。右下のAligned in 3Dの部分の下をみると、タンパク質のIDの右にRMSD (root mean square deviation)が表示されており、この例では、24.64Åとなっています。RMSDの値が低いほどよくアラインしていることを示します。

では昨日書いたストレスタンパク質をInaZにアライメントしてみましょう。

右上のバネのように巻いている部分にアラインしているのがわかります。RMSD値は低いですね。


緑のバネのような部分がStress Proteinです。InaZはこの部分では青になっています。
もっと拡大して、一部分にカーソルを当ててみましょう。

矢印のカーソルの部分が赤く囲まれています。この部分の説明が右下にでています。マウスカーソルの矢印が当たっている部分のアミノ酸はイソロイシン(アミノ酸の略号がILE)で240番目のアミノ酸であることがわかります。

以上のような要領で、自分の好きなタンパク質を表示して遊んでみてください。もちろんアライメントの座標などもダウンロードすることができます。

FoldseekがAlphaFoldデータベースに組み込まれました!類似の立体構造を持つタンパク質が一発で探せます。

自分が研究しているタンパク質の立体構造をAlphaFoldで推定します。推定結果がでたら次にやってみたいことは、その立体構造と似たタンパク質がないか調べることではないでしょうか。PSI-BLASTなどの相同性検索でアミノ酸配列レベルではあまり似ていないのに立体構造が似ているタンパク質を探すのが今まで行われていた一つの方法です。今回、なんとAlphaFold DataBase (AFDB: AlphaFold Protein Structure Database https://alphafold.ebi.ac.uk/ )に、
推定された立体構造をもとに類似の立体構造を探索する有名なプログラムFoldseekが組み込まれたと発表されました。これはすごいことで、今私の興味があるタンパク質でやってみたところ、衝撃的な類似がみつかりました。

Foldseekは開発者のサーバーにいってpdbファイルをアップロードして使うか、
https://search.foldseek.com/search
Uniprotから使うなどの方法で利用できたのですが、
https://qiita.com/Ag_smith/items/63799b3beaa07c3990fe
AFDBに一本化されたのは画期的です。AFDBでタンパク質を表示させると似た構造の一覧が自動で下の方に列挙されると思います。列挙されなければ類似構造を探すボタンがあるのでそれを押してみてください。
皆さんも一度使ってみてください。思わぬ類似がみつかるといいですね!

試してみるタンパク質が思いつかないという方は、例えば昔このブログで紹介した、雪の結晶の種になるタンパク質inaZを試してみてはどうでしょう?

ブラウザで分子を立体表示する方法の紹介。

こちらのリンクに AFDBのIce nucleation protein inaZのページがあります。
https://alphafold.ebi.ac.uk/entry/P06620
このページの下の方にFoldseekの結果へのリンクがあるはずですのでご覧ください。なければボタンを押したらFoldseekが動いて数分後には結果が表示されます。
AlphaFoldで予測したタンパク質の中にはFoldseekでヒットする、他の細菌のice nucleation proteinがいっぱいあります。
しかしあとの方を見ていくと、思いがけない分子、たとえばStress protein DDR48 などというタンパク質が驚くほど似た立体構造(部分的に似ている)をもっているのがわかってFoldseekのすごさを実感できます。詳しいやりかたは明日、スクショを含めた記事を書きますのでそちらをご覧ください。

昔からの定番教科書の改訂版がでていますね。しかしちょっと値段が高すぎます!

今日、発生生物学の教科書の定番 Scott Gilbert他著のDevelopmental Biologyの第13版が去年出版されている知りました。Amazonでみかけたのですが、なんと値段が37449円! しかし日本のOxford University Pressから買うと45396円なのでAmazonで買う方が安いです。Kindle版のEnhanced E-Bookというのは14920円となっています。Developmental Biology XE (English Edition) Kindle版で検索して「サンプルを読む」の部分をクリックすると、今回の版でどんな新しい内容が追加されたかの一覧がみられます。結構いろいろ進歩しているのがわかると思います。でもKidle版で動画などみられましたっけ?

発生生物学を勉強している学生さんには、以前の版(第10版)の日本語訳がでているのでそちらを読むのをおすすめします。日本語版翻訳時に最新情報が追加されているので英語の第10版より内容は翻訳書のほうが新しいです。こういう基本教科書はまず日本語版で読んで、基本的な用語や概念を理解するという読み方をおすすめします。学部生や一般の方は、第13版は図書館で借りて読んだり、先生に買ってもらったりして読むとよいのではないでしょうか。医学系や生命科学系の院生や研究者の人は、電子ブックを買うとよいでしょう。

また、有名な生化学の教科書StryerのBiochemistryも第10版がでていました。Amazonで17298円という値段で高いですね。生化学の教科書については私は以前紹介した次の本がよいと思います。日本生化学会おすすめの教科書です。学部生は翻訳版を買って勉強しましょう!

ミースフェルド生化学の第二版(英語版)を買ってみました。

OpenAIから京大や東大の数学入試問題も解ける新しい推論機能を強化したモデルが発表されました!

Open AIのChatGPT有料版で使える新しいモデルOpenAI o1とOpenAI o1-miniが発表されました。o1のほうは京大や東大の入試問題の数学を合格レベルの正答率で解くことができるようになっているそうです。
私も以前、ChatGPTにきいてみて当時のChatGPTが正しく解けなかった数学の問題が解けるか試してみました。OpenAI o1 previewに前と同じプロンプトで聞いてみましたが、今回はしっかりと正しく解答されて、解くときの方針まで丁寧に解説してくれるのには驚きました。

今井さんのツイートでもすごいモデルのようなのがわかります。


簡単な紹介はこちらのYouTubeチャンネル「中村祐太のプログラミング入門ナビ」の動画をご覧ください。
『OpenAI最新モデル登場!OpenAI o1-preview, o1-mini, ChatGPTで使える新モデルを徹底解説!』
https://youtu.be/QWsh2q0X2OM?si=pNmAwb3pf2hJU2jo

アイザック・ニュートン研究所の動画がYouTubeで公開されています。

昔私が英国ケンブリッジのMRC LMBのJohn Whiteラボにいたとき、シドニー・ブレナーさんの講演があるというのでラボの全員がIsaac Newton Institute for Mathematical Sciencesに聴きにいったことがありました。この研究所ではその後、フェルマの最終定理の証明の発表と研究会が行われたりして大変有名な研究所です。現在、Twistors in Geometry & Physicsという研究会がここで開催されていてその動画がライブ配信されています。この動画はツイスター理論の創始者でノーベル物理学賞受賞者のペンローズによる講演です。難しいかもしれませんが興味のある方は見てみるとよいと思います。
Sir Roger Penrose | From the Origins of Twistor Theory to Bi-Twistors and Curved Space-Times
https://www.youtube.com/live/R5uZqJiVfFw?si=an6DDBSlaVlZNsPl

この研究所では理論生命科学の講演会も開催されているようで、そのような動画も配信されるのではないかと思います。
こちらのイベントカレンダーから面白そうなテーマを探してみてください。
https://www.newton.ac.uk/events/calendar-of-activities/

Metascapeというエンリッチメント解析ツールと、その他のエンリッチメント解析ツールへのリンクを紹介します。

YouTubeのおすすめに以下の動画がでてきました。TogoTVの最新の動画です。
『Metascapeを使って遺伝子リストの生物学的解釈をする』
https://youtu.be/WqkIM_i55CM?si=iByXe7xfBrsEhTX1

いろんな実験で得られた遺伝子リストについて、リスト中にどのようなグループの遺伝子が統計的に有意に濃縮されているかを知るのがエンリッチメント解析です。たとえばこちらの資料を読むとわかりやすく解説されています。

用語解説 エンリッチメント解析 林 武司
https://www.jstage.jst.go.jp/article/livestocktechnology/2019/769-Jun./2019_48/_article/-char/ja
ダウンロードリンクも下にペーストしておきます。
https://www.jstage.jst.go.jp/article/livestocktechnology/2019/769-Jun./2019_48/_pdf私はこのところ、エンリッチメント解析を毎日行っていて、線虫の遺伝子リストをエンリッチメント解析ツールである、WormCatWormEnrichrWormBaseのenrichment analysis tool、そしていろんな生物種の遺伝子のエンリッチメント解析に使えるDavid、そしてEnrichrなどに入れて解析しています。どれも同じような結果をだしてきますが今のところ、WormCatとWormEnrichrがよいと思っています。今回動画で紹介されているMetascapeはGO termやKEGGだけでなくタンパク質間相互作用でもエンリッチメント解析できるようで遺伝子名のコンバージョンも自動でやってくれるほか、ビジュアルなアウトプットも得られるのでとてもよさそうです。ちょっとさっきから試していますが、なかなかよい結果が得られるという感触でした。明日、いろいろ試してみようと思います。

線形代数の解説動画を紹介します。

今日は外出していて忙しかったので、一本動画を紹介するだけの記事です。