ゲノミクス:98万3578人におけるタンパク質コード領域の多様性についての詳細なカタログ
Nature 631, 8021 doi: 10.1038/s41586-024-07556-0
機能に重大な影響を及ぼすコード領域のまれなバリアントは、遺伝子の生物学的性質についての手掛かりをもたらす。しかし、このようなバリアントの頻度を正確に知るには、大規模な試料サイズが必要である。今回我々は、さまざまな集団に属する98万3578人のエキソーム塩基配列解読から得られた、ヒトタンパク質コード領域の多様性についてのカタログを提示する。合計で、リジェネロン遺伝学センター100万エキソーム(RGC-ME)のデータの23%は、アフリカ系、東アジア系、アメリカ先住民系、中東系、南アジア系の人から得たものである。このカタログには、1040万を超えるミスセンスバリアントと、110万を超える機能喪失と予測される(pLOF)バリアントが含まれる。我々は、4848遺伝子においてまれな両対立遺伝子性pLOFバリアントを持つ人を特定した。そのうちの1751遺伝子は、これまで報告されていなかったものである。ヘテロ接合の機能喪失(LOF)に対する選択を定量的に正確に推定すると、LOFを許容できない遺伝子が3988特定された。このうちの86遺伝子は許容できるとこれまで評価されていたもので、1153遺伝子は確立された疾患アノテーションがないものである。我々はまた、ミスセンスバリアントが存在しない領域を高分解能で明らかにした。注目すべきことに、1482の遺伝子は、pLOFバリアントを許容するにもかかわらず、ミスセンスバリアントが存在しない領域を持つ。さらに我々は、3%の人は臨床的に有用な遺伝的バリアントを持ち、ClinVarに報告された病的意義が不明の1万1773バリアントは有害な潜在的スプライス部位である可能性が高いと推定した。我々は、バリアントの解釈と遺伝学的情報に基づいた精密医療を促すために、このRGC-MEデータセットから得られたコード領域の多様性についての情報資源を、バリアント対立遺伝子頻度ブラウザーを介して一般にアクセス可能にする。

