AlphaFoldを試してみています―生物学の革命:タンパク質の立体構造を驚異的精度で予測するGoogleのAI

7月16日早朝、アミノ酸配列を入力すると、その配列をもつタンパク質(蛋白質)の立体構造をほぼ完璧に予測できるというGoogleのDeep Mind系列の人工知能ソフトAlphaFold2の論文とソフトが公開されて、ものすごい反響を呼んでいます。
生物学の革命を今まのあたりにしているのだと思います。タンパク質の立体構造を予測するプログラムのコンテストで驚異の成績で優勝したソフトです。コンテストは、構造解析の実験で立体構造がわかっているがまだ立体構造が未公開のタンパク質のアミノ酸配列を問題として与えて、参加したグループが立体構造の予測を競うというものです。ここのところあまり良い結果がでていなかったそうです。そこに突如参加したAlphaFoldというGoogleのグループが初回でトップの成績をあげ、二回目の去年の大会では、改良版AlphaFold2がほとんどの問題で実験結果とぴったりの予測に成功して世間を震撼させたのでした。このソフトとアルゴリズム、AIの学習データセットの公開が待たれていたのですが、ついに公開されて全世界でAlphaFoldがブームになっているようです。7月16日早朝、雑誌Natureに論文が公開されて
https://www.nature.com/articles/s41586-021-03819-2
プログラムも一般公開されました。
https://github.com/deepmind/alphafold

プログラムの導入方法や使い方については、以下の森脇 由隆さんの記事が最高にわかりやすいのでご覧ください。
https://qiita.com/Ag_smith/items/7c76438906b3f665af38

Twitterも参考になります。https://twitter.com/Ag_smith
上の記事によると使用するコンピュータはlinuxの動くパソコンでメモリが32ギガバイトから64ギガバイト(それ以上ならなおよいでしょう)、ディスク容量はデータベースをダウンロードする必要があるので4テラバイト以上必要です。計算スピードが必要なので高速のSSDドライブを使うのがいいそうです。M.2 SSDという最新型のドライブ(メモリーみたいに差し込むだけで使えるのでSSDをつなぐケーブルとかがないものです)のパソコンがおすすめです。グラフィックボードはRTX3060以上がよいそうです。この森脇先生はRyzen9 5900X, RTX3090, HDD 8TBで使った場合、二時間余りで立体構造の計算結果がでるとTwitterに書かれていました。

残念ながら私のパソコンはこのスペックではなかった(ディスク容量不足など)ため、新たに購入する必要がありそうです。ただグラフィックボードはビットコインのマイニングで品薄となっていて昔10万したものが倍の値段になっていたりするので、あまりこれにお金はかけずに第四世代のPCIe (PCI express:Peripheral Component Interconnect Express)対応のマザーボードとPCIe 4.0対応のM.2 SSDで高速化を図るほうがよいと、阪大の先生からアドバイスをもらいました。

ということで、自分のパソコンでは動かないので、パソコンを組み立てる前に、Google Colaboratoryで利用できAlphaFold2を使ってみることにしました。Googleのアカウントを取得しておいて、以下のurlからアカウントとのログイン名とパスワードを使ってログインして使います。
https://colab.research.google.com/drive/1LVPSOf4L502F21RWBmYJJYYLDlOU2NTL
使い方は簡単で、アミノ酸配列を入力部分にペースト、上のほうにあるランタイムのプルダウンメニューからランタイムのタイプを変更を選んでGPUを使うに設定し保存、その後入力アミノ酸配列を確認して、ランタイムからすべてのセルを実行を選んで開始します。

さっそく私達が解析していたN型糖鎖の合成の第一段階で働く酵素DPAGT1の線虫版algn-7遺伝子産物を解析してみました。2時間弱で解析がおわりました。結果が冒頭の写真です。5つの予測結果が返ってきてダウンロード可能です。このサイトに書いてあるように、GPUの割当が不足で計算が途中で止まることもある(たとえば全長2300アミノ酸のタンパク質を解析しようとしたらだめでした)ようですが、1000アミノ酸程度の長さのものなら1-2時間で解析が終わります。

ところがビッグニュースが今日とびこんできました。なんと21の生物種のプロテオームのAlphaFold2による解析がすでに終了しており、その解析結果がダウンロード可能になっています。要するに21種の生物の全タンパク質のAlphaFold2による立体構造解析結果が一括でダウンロードできるというわけです。
ヒト、マウス、ゼブラフィッシュ、シロイヌナズナ、大腸菌、線虫C. elegansなど主なモデル生物種が網羅されています(以下のリンクをクリックしてください)。私は早速 線虫のタンパク質の解析結果をダウンロードしました。
https://alphafold.ebi.ac.uk/download

For downloading all predictions for all species, visit the FTP site:
ftp://ftp.ebi.ac.uk/pub/databases/alphafold
だそうですので、ftpでダウンロードするのもよいでしょう。

ダウンロードしたプロテオームファイルはtar圧縮ファイルなのでWindowsのパソコンなら7-zipなどの解凍ソフトで解凍します。
解凍されたファイル(まだgz拡張子がついた圧縮ファイルです)にはファイル名にUniprotのタンパク質登録名が入っています。たとえば上で解析したN型糖鎖合成の第一段階をつかさどる酵素(algn-7遺伝子の作る酵素)の立体構造解析の結果を調べたいとします。このタンパク質はUniprotではQ9U1Z2という登録名なので、解凍したフォルダのなかでQ9U1Z2という名前の入っているファイルを検索します。
するとファイル名がAF-Q9U1Z2-F1-model_v1.pdb.gzとAF-Q9U1Z2-F1-model_v1.cif.gzという二つの圧縮ファイルが見つかりました。これらをそれぞれ7-zipで解凍してできるのがAlphaFoldによる予測結果です。
解凍してできたpdbファイルはオンラインでは
https://www.ncbi.nlm.nih.gov/Structure/icn3d/full.html
にアクセスしてパソコンのファイルを指定してloadすれば、立体構造を手軽にみることができます。以下の写真がダウンロードしたpdbファイルを表示した写真です。私が昨日解析した上の結果とほとんど同じです。

またcifファイルはJmolとかで読み込めば立体構造が簡単にみられます。Jmolのダウンロードは以下から可能です。
http://jmol.sourceforge.net/
Jmolの使い方はここにあります。要するにjmol.batというファイルをダブルクリックしたら使えるので簡単です。
https://katakago.sakura.ne.jp/soft/jmol/jmol-pc.html

Uniprotにもヒトのタンパク質についてはAlphaFold2の予測結果は掲載されているようですが、まだ掲載されていない生物種も多いのでこのダウンロードファイルは貴重ですね。

(おまけの追記です。2021/07/24)
以下のリンクに詳しい説明とダウンロードリンクもあります。
https://insideuniprot.blogspot.com/2021/07/alphafold-structure-predictions-freely.html
このリンクにある記事を参考にヒトのタンパク質のAlphaFoldによる解析例を紹介します。ヒトの遺伝子の例として、私達が以前研究していたコンドロイチン合成酵素chondroitin synthase 1 (CHSY1)についてみてみましょう。UniprotでCHSY1とhumanの二語を検索窓に入れて検索すると、一番上の検索結果にQBX52というのがあります。
https://www.uniprot.org/uniprot/Q86X52
これをクリックしてみると、このタンパク質についてのすべてが載っているのですが、Structureの項目を探してみると、そこにAlphaFold2による予測結果が載っています。そこにあるAlphaFoldというリンクをクリックすると予測結果のページが表示されますのでご覧ください。
https://alphafold.ebi.ac.uk/entry/Q86X52