Broad Instituteの動画”MPG Primer: Noncoding Variants in Genetic Diagnoses”の紹介

このBroad Institute のMPG Primerの動画は、遺伝子のコーディング領域でない部分の変異が病気にかかわるメカニズムをまとめた後、最先端の研究まで紹介している大変よい動画です。

Broad Institute: “MPG Primer: Noncoding Variants in Genetic Diagnoses”
https://youtu.be/hVTlhrQSXME

やや専門的ですが最初の部分は、ノンコーディング領域の果たす役割の優れた解説になっているので最初のほうだけでもご覧になることをおすすめします。私はLLMでこんなプロンプトで内容を教えてもらいました。

『次の動画の主要な内容を箇条書きにしてまとめてください。まとめの程度は大学博士課程学生以上向けでお願いします。https://youtu.be/hVTlhrQSXME　』
皆さんもお好きなLLMで童画の要約を試してみてください。いくつかを試して比較するのもよいと思います。私は返ってきた回答をもとにいろいろLLMに質問して大変勉強になりました。ハルシネーションはあると思いますが、一年前のLLMとはくらべものにならない優秀なAIになっているのを実感しました。簡単なsimulatorまで即興でLLMがこしらえて解説してくれたりするのにはびっくりしました。
一例として、Gemini ３.1 proの回答の最初の部分をペーストしておきます。今回は博士課程以上の人むけに要約してもらいましたが、学部生向けとか大学一年生向けなどとプロンプトを変えてみるとまた違った要約が返ってきます。試してみてください。

『ご指定の動画（Broad Institute: “MPG Primer: Noncoding Variants in Genetic Diagnoses”）の主要な内容を、博士課程学生以上の学術的背景を持つ方向けに要約します。

動画の主要な要約

【背景・臨床的課題】

非コード領域は全ゲノムの大部分を占め、5′ UTR（プロモーター、エンハンサー）、イントロン、3′ UTR、および多様な非コードRNA（miRNA, lncRNA, circRNA, piRNA）を含むが、臨床データベース（ClinVar等）の登録はコーディング領域や必須スプライス部位に著しく偏重している。
非コード領域のバリアントはVUS（Variant of Uncertain Significance：意義不明のバリアント）と分類される割合が非常に高い。しかし、eCLIPデータ等から同定されるRNA結合タンパク質モチーフ内に位置するバリアントは、病原性を示すオッズ比が有意に高いことが示されている。

【非コードバリアントの機能的評価手法とその限界】

MPRA (Massively Parallel Reporter Assay) / MAVEs:
- ハイスループットな転写活性やアレル不均衡の評価に有効。しかし、エピソーム状態でのレポーター解析となるため、TAD（Topologically Associating Domains）や遠位エンハンサー等の内在性クロマチンコンテキストが反映されない。また、プラスミドの過剰発現によるトランス因子のストイキオメトリーの破綻がアーティファクトを生む懸念がある。
Saturation Prime Editing:
- Cas9ニッカーゼを応用した二本鎖切断を伴わないゲノム編集。内在性のゲノムコンテキストにおいて単一塩基置換を網羅的に導入・評価可能であり（例：NPC1遺伝子のハプロイド細胞モデルによる機能スクリーニング）、より生理的条件に近い機能評価を実現する。

【Multiomicsアプローチによる病原性同定】

Long-read RNA-seq、プロテオミクス、およびエピゲノミクス（ATAC-seq, ChIP-seq, Hi-CによるTAD境界同定など）の統合アプローチの重要性。
特にLong-read RNA-seqは、ハプロタイプのフェージングやアイソフォームの全容把握において強力であり、ショートリードでは検出困難な構造多型や複雑な転写産物異常を解像度高く同定可能にする。

【計算論的（in silico）予測モデリングの現状】

非コード領域の制約（Constraint）指標: 従来のpLIスコア等に加え、非コード領域へ拡張された制約スコア（動画内では「noki score」として言及）が開発されている。ハプロ不全遺伝子のエンハンサー領域等で高いスコアを示す傾向が確認されている。
機械学習モデルの課題: AlphaGenome等の深層学習モデルは、エピジェネティックマークやクロマチン立体構造等のデータ統合により、バリアントの多層的な「機能的影響」の予測には優れている。
しかし、バリアントの「機能的影響」と「疾患特異的病原性」は必ずしも同義ではない。病原性予測に特化したモデル（FINSURFなど）は良性バリアントの排除には優れるものの、希少疾患の真の原因バリアントを特定するための精度（Precision-Recall AUC）は依然として低く（0.12程度）、偽陽性の多さが最大のハードルとなっている。・・・・（以下略）』