AlphaFold2は、驚異的な精度でタンパク質の立体構造を予測することができます。ただこれはオープンソースではないので、世界のいろんな場所で改良を加えることが難しいと言う欠点があります。去年11月に投稿されたプレプリントでは、OpenFoldという、AlphaFold2とおなじ内部構造をもったオープンソースの機械学習プログラムが紹介されています。
https://www.biorxiv.org/content/10.1101/2022.11.20.517210v2
論文では、OpenFoldがより少ない計算リソース(GPUは1個でOK)で、より早くAlphaFold2と同じ予測精度で予測可能であることが示されています。どれくらいの数のタンパク質の立体構造を学習に用いたらAlphaFold2と同じ精度での立体構造予測が可能になるかも、学習に使うタンパク質の数を変えて試しています。
AlphaFold2は132000個ほどのPDBに登録されているタンパク質の立体構造データで学習したそうですが、OpenFoldでは 17,000、10,000、5,000、2,500、2,000、 1,000 の個数で学習させて予測精度への影響を検討しています。10000個使えばAlphaFold2と遜色ない予測精度になるそうです。もっと数を減らしてもそれほど精度はおちなかったようで、OpenFoldを使って立体構造がまだあまり沢山知られていない生体分子の立体構造(たとえばRNAの立体構造など)も予測できるようになるだろうと書かれています。
私などには難しい論文ですが、幸い この論文の著者の一人 ハーバード大学医学部のResearch AssociateのNazim Bouattaさんによる講義が以下のページにまとまっています。今年の2月から3月にかけておこなわれたハーバード大学での最新の講義です。機械学習でタンパク質の立体構造を予測するというのはどんなことかが良くわかる連続講義です。AlphaFold2の原理やその限界とOpenFoldについても詳しく触れられている講義ですので、このプレプリントを読むための予備知識として絶好の講義だと思います。
https://scholar.harvard.edu/nazimbouatta/lectures
講義のタイトルは以下のとおりです。
Machine learning for protein structure prediction, Part 1: Algorithm space
Machine learning for protein structure prediction, Part 2: AlphaFold2 architecture
Machine learning for protein structure prediction, Part 3: AlphaFold2 and OpenFold
YouTubeでも見られます。
Special Lectures on Machine Learning and Protein Folding
https://youtube.com/playlist?list=PL0NRmB0fnLJQPDZh-6utVnRpF1-beEr4T
https://youtu.be/kIkn5DGEJJw