今日は恒例の計算生命科学の講義がある日だったので、聴講していました。京都大学の鎌田真由美先生による、「創薬のための機械学習」という講義でした。機械学習の用語解説(モデルとか、説明変数=独立変数=特徴量という話、パラメータとか説明変数などの解説)からはじまって、多変量解析のわかりやすい解説や、数万次元のデータからなるオミックスデータもユークリッド距離を導入して整理できるという話は分かりやすかったです。さらに機械学習の分類(教師あり学習、教師なし学習、強化学習)の話が続き、よく使われるアルゴリズムとしてサポートベクターマシン、決定木、ランダムフォレスト、Bagging、XGB00st、LightGBMなどの簡単な解説もありました。さらにニューラルネットワークの解説や、Deep Learning (深層学習:2層以上の隠れ層を含むニューラルネットワークを用いる機械学習)についても学びました。CNN、RNN、GNNなどのニューラルネットワーク、生成AIでは変分オートエンコーダ(VAE)やGANの説明もありました。大規模言語モデルLLMについてもTransformerとアテンションattentionの有効性を中心に簡単な説明がありました。以上の機械学習の概観は、はしょっておられるので全部は理解できませんでした。しかし生命科学における機械学習の専門家の先生による講義でしたので、上に列挙したような内容が実際の生命科学での機械学習にどのように応用されているかがよくわかりました。特に講義の最終部分では、実際の応用例を紹介してくださったので、今習ったばかりのアルゴリズムや手法がどのように創薬や医学研究に役立っているかがよくわかりました。
今日は、創薬への機械学習の応用について学びましたが、機械学習の化学への応用法としてはChatGPTのプロンプトを紹介している次の論文が評判になっています。
皆さんツイートしていますが、ChatGPTをデータ駆動化学に最大限利用するためのレシピ集の論文がJACSに出ていました。論文文章から”テーブル”を自動作成(テキストマイニング?)するためのプロンプト作成方法が参考になります。https://t.co/tCWbWHLNFk
— データ駆動化学@NAIST (@NAIST37744398) August 10, 2023
ChatGPTによくあるウソをこたえる現象Hallucinationをどうやって防ぐかなどを実例をつかって説明してくれている部分は参考になります。ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesisという論文でこちらからz全文が読めるのでご覧ください。
https://pubs.acs.org/doi/10.1021/jacs.3c05819
あと先日紹介した柳瀬先生の講演の動画が公開されました。
「大学英語教育におけるChatGPT活用型授業実践:英語教師が認識する生成系AI活用の可能性と限界」
柳瀬 陽介 京都大学国際高等教育院 教授
https://youtu.be/WD4Gl7JfSrY?si=xzpevA5SjKr0c3Zf
今回のシンポジュウムのプログラムは以下にありますので参考にしてみてください。
https://www.nii.ac.jp/event/other/decs/#edx70