PubChemQC データベースの作成の研究。86mil.の分子構造をPM9で最適化しDFTでのエネルギー計算結果をデータベース化。こうした研究には本当に頭が下がります。たくさんの応用研究が生まれそう。VSとか、QM9に代わるベンチマークデータセットの作成とか。https://t.co/QRJN1ccMuh
— データ駆動化学@NAIST (@NAIST37744398) September 7, 2023
こんなすごいデータセットが作られて公開されているそうです。日本の研究者 中田真秀(中田麻帆)先生たちによる論文で紹介されています。タイトルは
PubChemQC B3LYP/6-31G*//PM6 Data Set: The Electronic Structures of 86 Million Molecules Using B3LYP/6-31G* Calculationsです。この論文のの本文はペイウオールのむこうにあるので機関購読などしていないと読めません。
https://pubs.acs.org/doi/10.1021/acs.jcim.3c00899
しかしデータセット自体は無料公開されているのでこちらからダウンロード可能です。25テラバイトとかのサブセットからなっています!
https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.html
このデータベースは、化合物の巨大なデータベースであるPubChem Compound カタログにのっている分子(2016年8月末当時)の約94パーセントにあたる85,938,443の分子について B3LYP/6-31G* and PM6という二つの量子化学的手法で計算した結果がのっているものだそうです。簡単な分子から生体分子まで量子化学的計算結果があるので、創薬や材料科学その他の分野で大いに役立つと期待されています。分子スペクトルデータやHighest Occupied Molecular Orbital–Lowest Unoccupied Molecular Orbital (HOMO-LUMO) のエネルギーギャップも予測されており、分子の反応性の予測などにも役立つものになっているようです。
タイトルにでてくるB3LYP/6-31G*というのは、量子化学計算の手法の一つを示しています。この密度汎関数う理論を用いる計算手法は、中規模の分子の電子状態やエネルギー、分子の構造や振動などの性質を計算する際に広く用いられているそうです。比較的高速に計算が行え、かつ計算結果の精度も高いとされるため、多くの研究者によって利用されています。B3は密度汎関数理論における3つの交感汎関数、LYPは相関汎関数の名前だそうです。6-31G*は計算に用いるガウス型基底関数セットの名前です。もう一つの計算手法であるPM6というのは半経験的分子軌道法 (Semi-Empirical Molecular Orbital Method) の一つです。PMはパラメトリックメソッドの略で、有機分子や金属元素の実験や精密量子化学計算で調整されたパラメータを利用しており、従来のPM法より高精度の計算結果が得られるので現在よく利用されている計算方法だそうです。
素人がざっと読んだだけなのでまちがっているかもしれませんので、興味のある方は原論文をご覧ください。