全ゲノム解読による日本人集団の三祖起源、古風遺伝子移入、自然選択の解読 2024/4/17

全ゲノム解読による日本人集団の三祖起源、古風遺伝子移入、自然選択の解読

抽象的な

私たちは、日本全国の 3,256 人から構成される高深度の全ゲノム配列決定データセットである日本全ゲノム/エクソーム配列決定ライブラリー (JEWEL) を生成しました。 JEWELの分析により、マイクロアレイデータでは識別できなかった日本人集団の遺伝的特徴が明らかになりました。まず、稀な変異に基づく分析により、前例のない詳細な遺伝子構造が明らかになりました。集団遺伝学の分析と併せて、現在の日本人を 3 つの祖先構成要素に分解することができます。次に、報告されていない機能喪失(LoF)バリアントを特定し、特定の遺伝子については、LoF バリアントが偶然に予想されるよりも限られた転写産物のセットに限定されているように見えることを観察しました。注目すべき例としてPTPRDがあります。第三に、 2 型糖尿病に関連するNKX6-1のデニソワ人由来セグメントを含む、複雑な形質に関連する 44 の古風なセグメントを特定しました。これらのセグメントのほとんどは東アジア人に特有のものです。第四に、最近の自然選択の下で候補遺伝子座を特定しました。全体として、私たちの研究は日本人の遺伝的特徴についての洞察を提供しました。 

導入

全ゲノム配列決定 (WGS) データセットは、人間の遺伝学および生物医学研究にとって非常に貴重なリソースです ( 1 )。 WGS データは、遺伝子変異の包括的なプロファイリングを通じて、さまざまな詳細な分析を可能にしました。これらの分析によりヒトゲノム変異の特徴についての洞察が得られ ( 2 ) ヒト集団の複雑な歴史が明らかになり ( 3、4 )、進化の適応と正の選択のプロセスが明らかになりました ( 5、6 )。遺伝学への応用という点では、WGS データセットは代入解析に不可欠です。大規模な WGS データセットにより多民族または集団固有の参照パネルを構築することが可能になりました ( 7、8 )。マイクロアレイデータから非遺伝子型変異を正確に推測することにより、代入分析はゲノムワイド関連研究(GWAS)の能力を効果的に高め、詳細なマッピングを可能にし、民族を超えたメタ分析を容易にします ( 9 )。さらに、WGS データセットは、まれな変異、特定の集団に特異的な変異、有害な変異や機能喪失 (LoF) が予測される変異など、変異の豊富なソースを提供します ( 10 )。これらの変異体は、さまざまな疾患との関連だけでなく、ヒトのノックアウトの影響についても調査することができ、生理学的および病理学的プロセスの両方における機能的役割を特定し、したがって医薬品開発の標的としての可能性を探る機会を提供します11、12 ) 。したがって、WGS データセットは、正確な遺伝子分析と個別化医療の開発に不可欠です。
現在、大規模な人口規模の WGS データはヨーロッパ系の個人によって不均衡に代表されており、特に UK Biobank ( 13 )、FinnGen ( 14 )、deCODE ( 15 )などのプロジェクトによって多大な貢献がなされています。ヨーロッパ中心のゲノムデータの不均衡は、精密医療の恩恵の不平等をもたらし、健康格差の懸念を引き起こす可能性があります ( 16 )。たとえば、多遺伝子リスクスコアは、他の祖先と比較して、ヨーロッパ系の祖先を持つ個人の方が数倍高い精度を示すことがよくありました ( 17 )。特定の集団に合わせた個別化医療を実施するには、ヒトの遺伝的変異をより広範囲に把握することが重要であるとの認識から、精密医療のためのトランスオミクスやAll of Usプロジェクトなど、より多様な民族グループのサンプルを配列決定するための協調的な取り組みが行われてきました。 1819 )。これに関連して、東アジア (EA) 集団から WGS データを生成する際にも注目すべき進歩が見られました。 GenomeAsia 100K ( 20 )、SG10K コンソーシアム ( 21 )、ChinaMap プロジェクト ( 22 )、中国人向け Westlake BioBank などの主要な取り組みが設立されています ( 23 )。これらの取り組みにより、EA 集団におけるより広範囲の遺伝的変異が総合的に明らかになり、それによってこの地域の遺伝的多様性についての理解が深まります。日本人集団の WGS データに関しては、東北メディカル メガバンク (ToMMo) プロジェクトによって注目すべき取り組みが行われています ( 24 )。長崎ほか25 ) は、日本の東北地域から募集した 1,070 人の日本人を対象に WGS を実施しました。この研究では、まれな遺伝子変異と構造変異(SV)が特定され、日本固有の参照パネルが作成されました。その後 ToMMo などによる配列決定の取り組みが継続され、日本人 3500 人および 8300 人の WGS に基づいた概要レベルの対立遺伝子頻度 (AF) が報告されています ( 26、27 )。さらに、増え続ける個体数に基づく AF データは、日本の Multi-Omics Reference Pan データベースと TogoVar データベースで入手できます27、28 )。これらのデータセットは、日本人集団における遺伝的変異のカタログとして貴重な情報を提供し、遺伝カウンセリングの文脈における変異の解釈にとって重要です。最近、国立センターバイオバンクネットワークは、主に共通対照サンプルとしての使用を目的として、9,287 人からの WGS データを公開し、日本の遺伝データリソースをさらに充実させました ( 29 )。
ここでは、日本最大のバイオバンクの 1 つであり、アジア全域のバイオバンク研究の主導的存在であるバイオバンク ジャパン (BBJ) のサンプルを使用した包括的な WGS である全ゲノム/エクソーム シーケンス ライブラリーの日本百科事典 (JEWEL) を作成しました (注 S1) ( 3031)。日本の東北地域の一般人口を基盤とする ToMMo とは異なり、BBJ はゲノム医療研究を推進するために全国規模の患者ベースのバイオバンクとして設立されました ( 32 )。 JEWEL は、多様な地理的地域からサンプルを採取することにより、日本人の遺伝的多様性をより適切に把握することを目指しています。主成分分析 (PCA) により、本島クラスターと琉球クラスターからなる日本人の二重集団構造が特定され、最近の研究では本島日本人内の実質的な遺伝的異質性が強調されています ( 33 – 35 )。 WGS を使用することで、JEWEL は詳細な人口構造をさらに調査する機会を提供します。さらに、BBJ では、医療記録のレビュー、追跡調査、検査を通じて、深い表現型を収集し、整理するために広範な努力が払われてきました。これらには、一次および二次疾患の診断、長期的な臨床検査結果、過去の病歴、家族歴、生存情報が含まれます。その結果、JEWEL には疾患に関連する可能性のある病原性変異が豊富に含まれており、詳細な臨床情報により、特に関心のある保因者を対象とした検査が可能になります。この研究では、一般的な変異体と稀な変異体の両方を使用した遺伝子構造の再検査、LoF変異体とヒトノックアウトの特徴付け、ネアンデルタール人またはデニソワ人から遺伝子移入された可能性が高い古風なセグメントの同定などの詳細な分析を提示します。最後に、日本人集団における選択の標的となる可能性のある遺伝子座を特定することを試みました。

結果

JEWEL WGS データセットの特徴

日本全国の 7 つの地理的地域の医療機関から登録された合計 3,256 人の患者の配列決定が行われ、JEWEL が生成されました。これらの地域には、北海道、東北、関東、中部、関西、九州、沖縄が含まれます。以降、これらを北部、東北、東部、中部、西部、南部、沖縄と呼びます (材料と方法および図 1Aを参照)。沖縄を除くすべての地域は、一般に本島として知られる日本列島の本島に位置しますが、本研究における沖縄という用語は琉球諸島を指します。相対サンプルサイズは、日本のこれらの地域の人口サイズを比例的に反映しています(表S1)。シーケンスは標準的な Illumina プロトコルに従って実行され、平均 WGS カバレッジ深度 25.6 倍が達成されました。バリアントコールは、確立されたゲノム解析ツールキット(GATK)のベストプラクティスに従って実施されました(詳細については、材料と方法を参照し、S2に注意してください)。最終的なデータセットは、23 の染色体からの 45,586,919 個の一塩基変異体と 9,113,420 個の挿入または欠失 (インデル) で構成されていました。我々は変異体の 61% と 40% がそれぞれゲノム集約データベース (gnomAD) と ToMMo に登録されていないことを観察しました ( 26、36 ) (表 S2)  15,410,953 (32.7%) のバリアントが JEWEL でのみ観察されました。マイクロアレイの遺伝子型解析データと比較して、99.971% という高い遺伝子型一致率が得られました (「材料と方法」を参照)。 42,389,421 個の両対立遺伝子常染色体一塩基変異体を使用して、我々は転移対転移の比 (Ti/Tv) を 2.11 と推定しました。これは、最近の大規模な WGS 分析 ( 21、22 ) と一致してました(表 S2 および S3) これらの結果により、JEWEL データセットがさまざまな側面で高品質であることが確認され、この集団の遺伝的特徴をより深く分析できるようになりました。
図1。現代日本人の詳細な遺伝構造とその 3 つの祖先の起源。
A ) サンプルが採取された日本の地理的地域が説明されています。これらの地域には、一般に本島として知られる日本列島と、本研究では沖縄と呼ばれる琉球列島が含まれます。各地域の個体数は表 S1 に示されています。 ( B ) マイナー AF (MAF) ≥ 0.01 の一般的なバリアントに基づく PCA 分析。個人は採用地域に応じて色分けされています。 ( C ) レアバリアントベースの PCA-UMAP 分析 (0.001 ≤ MAF < 0.01) が表示されます。 ( D ) Kを 3 に設定したADMIXTURE 分析。沖縄以外の地域については、100 人の個体をランダムに選択してプロットしました。沖縄出身の 28 人全員がプロットに含まれていました。 K1 は沖縄を表し、K2 と K3 はそれぞれ東北と西部で最も高くなります。 ( E ) UMAP1 は K2 祖先の割合と負の相関があります。 UMAP とKの各組み合わせ間の相関関係を図に示します。 S5.
ビューアで開く

日本人の三祖起源

まず、184,036 個の独立した枝刈り共通バリアントに基づいて従来の PCA を実行しました (「材料と方法」を参照)。以前の研究と一致して、この分析では沖縄クラスターと本島クラスター(図 1B からなる古典的な「二重クラスター」構造が再現されました( 33、35、37)。私たちは、個体群構造を明らかにする上で希少変異体の方がより有益である可能性があると仮説を立て、1,835,116 個の独立した枝刈りされた希少変異体のみを使用した PCA 均一多様体近似投影 (PCA-UMAP) 分析を実施しました (「材料と方法」を参照)。この分析により、日本人人口の前例のない微細な構造が明らかになりました(図1C)。 「ハチドリ」に似たこの構造は、一般的なバリアントに基づいて PCA から得られたパターンを再現しただけでなく、いくつかの注目すべき特徴も強調しました。具体的には、(i) 本渡島のサブリージョン間のより明確な分離、および本渡島クラスターからの沖縄クラスターのより明確な区別、(ii) 薄く狭い領域にクラスター化された北東部の個体、および (iii) 西部および南部の個体の追加サブクラスターが観察されました。 (図 S1 と S2、および注 S3)。
集団構造についてより深い洞察を得るために、一般的なバリアントに基づいて教師なし ADMIXTURE 分析を実行しました (材料と方法を参照し、S4 に注意してください)。最適なK値を決定するために、他の推定器と比較して優れたパフォーマンスを示すことが実証された方法である Structure Selector を使用しました ( 38 )。この分析では、4 つのメトリクスすべてが、祖先コンポーネントの最適な数として 3 というK値をサポートしています (図 S3)。さらに、badMIXTURE を使用して適合度を評価したところ、大きな残差の系統的なパターンは観察されず、K = 3 で全体的に良好な適合を示しました (図 S4) ( 39 )。したがって、我々のデータは、日本人集団は 3 つの祖先構成要素 (以下、K1 から K3) の混合によって最もよくモデル化できることを示唆しました。 K1からK3は、それぞれ沖縄、東北、西部で最も高かった(図1Dおよび表S4)。 K1 (沖縄) 成分は、ホンド島のサブグループで約 12% という比較的安定した割合を維持していますが、南部 (沖縄に隣接する地域) の割合は 22% と高くなります。 K2 (北東) および K3 (西) コンポーネントは西から東への傾斜を示しました。また、一般的な変異体と稀な変異体の両方を使用して ADMIXTURE 分析を実施し、沖縄からの追加の詳細とともに一貫した結果を観察しました (注 S4)。
K値と PCA-UMAP 値の間には、前者が一般的なバリアントの分析から得られ、後者は稀なバリアントの分析から得られたにもかかわらず、有意な相関関係が観察されました。この発見は、K = 3 に対する追加の裏付けを提供しているように見えました。具体的には、UMAP1 は K2/K3 と有意に相関しています (ピアソン係数 = K2 では -0.69、K3 では 0.60、両方ともP < 2.2 × 10 -16 )。この相関パターンは、それぞれの領域に従ってサンプルを集約することによって明確に視覚化することもできます (図 1Eおよび図 S5)。さらに、地理の文脈でK値を分析したところ、沖縄 (K1) と東北 (K2) の祖先の割合が地理的経度と相関していることがわかりました。対照的に、West (K3) との相関はそれほど顕著ではなく、統計的に有意ではありません (図 S6)。
私たちは、K1 から K3 の潜在的な祖先の起源についてのヒントを得ようと試みました。これまでの研究では日本人は縄文人とEAの祖先(漢民族に代表される)を持っていることが示唆されている(34、40 。最近、古代ゲノムの分析に基づいて、北東アジア (NEA) 祖先の存在が提案されています41、42 )。これに関連して、私たちは縄文、EA、NEAの現代および古代の遺伝データと併せてデータを分析しました。4比統計を使用して、縄文系の祖先が最も高いのは沖縄 (28.5%)、次に北東部 (18.9%)、西部 (13.4%) が最も低いと推定しました (材料と方法および表 S5 を参照)。これらの結果は縄文人と沖縄人の間の高い遺伝的親和性を実証した先行研究と一致している( 43、44 )。次に、アウトグループ3統計に基づいて、西部出身の個人が漢民族との遺伝的浮動の共有が最も高いことが観察されました (表 S6)。次に、4 (ムブティ、古代ゲノム、東北、西部)の形式で4統計を使用し、中国、韓国、日本から報告された古代ゲノムに関連して、東北と西部の間で異なる遺伝的類似性を評価しました ( 41、44 – 47)。私たちの結果は、黄河(YR)またはYR上流地域、特に中期新石器時代(MN)および後期新石器時代における、西部と古代中国のグループの間の非常に密接な関係を示しました(表S7)。対照的に、東北部の個体は、縄文人および沖縄の宮古島の古代日本のゲノム(縄文の割合が高かった)、および三国時代(TK)時代の古代朝鮮人(韓国-TK_2)との遺伝的類似性が著しく高いことを示した(4位から5位)世紀)(表S7)。これらの結果は弥生時代の古代日本人と特定の古代韓国人グループが縄文系の祖先の割合が高いことを示す報告と一致しています ( 42、47 )
その後、qpAdmを使用して、先行研究 ( 41、48 )で説明されているアプローチに従って、各サブグループにおける NEA、EA、および縄文祖先の寄与を推定しました(材料と方法を参照)。この分析では、中国の漢民族が EA の代表として指定され、China_WLR_BA_o と China_HMMH_MN が NEA を代表するようにグループ化されました。結果は、三者モデルがデータセットに概ねよく適合していることを明らかにしました (表 S8)。 qpAdm によって推定された縄文系祖先の割合と傾向は、 4比テストの結果と一致しており、割合が沖縄 (25%) で最も高く、西部 (7.5%) で最も低いことが明らかになりました。おそらく西部では縄文系の祖先が低いため、EA の祖先は西部ではなく南部で最も高いことが観察されました。ただし、北東に対するこのモデルのフィッティングは拒否され、極端なP値 ( P = 6.5 × 10 -4 ) で示されました。追加のモデルを検討したところ、東北は韓国-TK_2 (68%) と漢方 (32%) の双方向混合としてモデル化できることがわかりました (表 S8 および S9)。特に、ホンドグループの中で、東北は韓国-TK_2の割合が最も高かった。 West の場合、NEA、EA、および Jomon を含む最初の 3 元モデルは、より低いカイ二乗値 (11.8 と比較して 9.14) によって示されるように、より良好な適合性を示しました。さらに、縄文、EA、NEA の組み合わせを含む二元混合モデリングは失敗したことが判明しました (表 S9)。これらの複数の証拠は、K1 と K3 が縄文人と EA の祖先に関連している可能性があることを示唆しています。あまり明確ではありませんが、K2 の祖先の起源は、Korea-TK_2 などの日本および朝鮮半島の古代集団に関連している可能性があります。
上記の発見に動機付けられて、我々はこの三祖の枠組みが日本人の創始者突然変異のおそらく起源についての洞察を提供できるかどうかを調査した。われわれは、日本人患者の遺伝性乳がんに関連する高頻度の2つの病原性変異、BRCA1 Leu63TerとBRCA2 c.5576_5579delTTAAフレームシフト変異に焦点を当てた。前者は日本人に特有であり、西日本よりも東日本で著しく頻度が高い( 49 )。対照的に、後者は西日本での頻度が高く、中国人 ( 50 ) や韓国人 ( 51 ) を含む他のアジア人集団でも報告されています。BRCA1 Leu63TerキャリアをPCA-UMAPにプロットすると、この変異は主に北東部の祖先を持つ個人で発生し、その発生はUMAP1と有意に関連していることが示されました( P = 9.04×10 -6、ロジスティック回帰)(図S7)。ほとんどのキャリアが東部から採用されたため、このパターンは登録場所を考慮すると明らかではありませんでした(9 キャリアのうち 7 人は東部から採用され、残りの 2 人は北部と北東部から採用されました)。一方、BRCA2 c.5576_5579delTTAA 変異は主に西部系の個体で観察されました(図S7)。私たちのデータは、約10万件の日本人サンプルに基づく最近の研究と一致しており、BRCA1 Leu63Terの頻度が北東部で最も高いのに対し、BRCA2フレームシフト変異は西部で最も頻度が高いことを示しています( 52 )。サンプルサイズははるかに小さいにもかかわらず、希少な変異体に基づく微細構造から、日本人における 2 つの突然変異の起源と考えられる洞察が得られます。データは、BRCA1 Leu63Ter 変異が北東部の祖先に由来し、他の地域に広がった可能性が高いことを示唆しました。西洋の日本人は漢民族との遺伝的親和性が高かったため、この突然変異は大陸アジアから日本に持ち込まれたのではないかと推測されます。さらに、線形回帰に基づいて、K値が JEWEL 個体の定量的表現型と関連しているかどうかを調査しました。特に総コレステロール ( P = 2.69 × 10 -13 ) およびプロトロンビン時間 (PT; P = 1.33 × 10 -12 ) と K1 との有意な関連性が見つかりました。これらの形質と K2 の同等のP値も観察されました (表 S10)。

LoF の変異体とヒトのノックアウト

JEWEL データセットにより、日本における潜在的に臨床的に重要なタンパク質コード変異体を探索することができました。私たちの分析では、gnomAD または ToMMo (4.7K) に登録されていない 9,780 個の LoF バリアントを含む 9,045 個の遺伝子から 18,481 個の LoF バリアントを特定しましたが、これらのかなりの割合はまれです (図 2Aおよび表 S11)。これらの LoF バリアントは、未熟な終止コドン (ストップゲイン)、コード配列をシフトする小さなサイズのインデル (フレームシフト)、またはスプライシング部位に直接隣接する 2 つのヌクレオチドを変更するバリアント (スプライシング バリアント) を引き起こす可能性のあるバリアントとして定義されます。さらに、我々は177,112個の同義変異体と306,923個のミスセンス変異体を分類し、それぞれ18,651個と19,103個の遺伝子に影響を与えた(図2B )。 LoF バリアントをキャリアの UMAP 値と合わせて調べると、32 個と 37 個の LoF バリアントが特定され、その頻度はそれぞれ UMAP1 および UMAP2 と有意に関連していました (誤検出率 < 5%) (材料と方法および表 S12 を参照)。私たちは、北東部出身者は他の地域出身者と比較してシングルトンコーディングバリアントの平均数が最も低いことに気づきました(表S13)。北東部のサンプルサイズは他のホンド地域のサンプルサイズよりも小さいため、ランダムな再サンプリング分析を実施し、この観察がサンプルサイズに起因するものではない可能性があることを確認しました(表S14)。私たちは、人口動態の歴史、特に人口増加などの他の要因がこの観察に影響を与えているのではないかと推測しています。地域差にもかかわらず、各領域にわたるシングルトンミスセンスとシングルトン同義バリアントの比 (dN/dS) は一貫して 2 に近かった。これは、in vivo 研究で報告されたデノボミスセンスと同義バリアントの観察された比である ( 53 )。さらに、別の報告の観察と一致して、この比率はAFと負の相関があり、多くのまれなミスセンス変異体は有害である可能性があるが、遺伝子プールに残っている可能性があることを示唆しています( 54 )。このアイデアをさらにテストするために、30 の異なる注釈ツールからの注釈を統合することによってミスセンス リスク スコアを計算しました (「材料と方法」を参照)。我々は、AFが減少するにつれてミスセンスリスクスコアが増加することを観察した( P < 2.2 × 10 -16、ピアソン相関検定)。平均して、シングルトンは最も高いリスク スコアを示しました (表 S15)。上記のデータに基づいて、一般集団ではまれなミスセンス変異を疾患関連分析の優先順位に付けることができます。この優先順位付けのアプローチにより、潜在的な候補を絞り込むことができ、それによって意味のある臨床的関連性を特定できる可能性が高まります。
ビューアで開く
JEWEL により、日本人集団における LoF 観察/期待上限分率 (LOEUF) スコアの潜在的な適用可能性をさらに評価することができました。 LOEUF スコアは、gnomAD プロジェクトで観測された LoF バリアント数と予想される LoF バリアント数に基づいて、LoF バリアントに対する遺伝子の耐性を定量化する指標として導入されました ( 36 )。 EA 祖先を持つ個人が gnomAD データセットの 7% を構成していることを考えると、LOEUF スコアが JEWEL に適用できるかどうかをテストすることに興味があります。我々は、最低のLOEUF十分位ビン(LoFバリアントに対する最も高い不耐性を示す)にある遺伝子がLoFの影響を最も受けていないことを観察しました(図S8)。これは、LoF バリアントに対して高度に不耐性な遺伝子を階層化する際の LOEUF スコアの有用性を裏付けています。ただし、上位十分位ビン内の LoF バリアントによって影響を受ける遺伝子の数には矛盾が見つかりました (図 S8)。さらに、本発明者らは、LoF変異体によって影響を受けた転写物の割合がLOEUFビンとの有意な正の相関を示すことを観察した(図2C )。全体として、これらの結果は LOEUF スコアの一般化可能性を裏付けると同時に、LoF 耐性遺伝子に関して改善の余地がある可能性があることを認めています。
病原性変異とヒトのノックアウトは臨床研究や医薬品開発にとって非常に価値があり、ヒトの遺伝子型と表現型の関連性を明らかにする可能性があります。我々は、ClinVarの病的バリアントを保有する遺伝子において、371のClinVarに登録された病的バリアントと1,723の未報告のLoFバリアントを特定した(注S5)。 LoF バリアントのホモ接合体または複合ヘテロ接合体として定義されるヒトのノックアウトを検索しました。注釈の検査と手動によるキュレーションにより、臨床的に関連する可能性が高い 23 のヒトノックアウトが特定されました。我々は、 ABCC2遺伝子における複合ヘテロ接合性LoFバリアントのキャリアに注目した(材料と方法および表S16を参照)。この遺伝子の LoF は、高ビリルビン血症に関連する常染色体劣性肝疾患であるデュビン・ジョンソン症候群を引き起こすことが知られています( 55、56 )。この症候群は通常、良性であり、患者は血中の総ビリルビンの増加を示し、慢性黄疸につながります。我々はこの患者の病歴記録と血液検査結果を入手し、デュビン・ジョンソン症候群の診断と高ビリルビン血症の臨床症状を確認した(図2D)。さらに、非症候群性感音性難聴に関連する遺伝子であるGJB2のホモ接合型 LoF バリアントを持つ 3 人のうち 2 人が難聴であることが確認されました ( 57 )。これらの例は、JEWEL を使用して、疾患の原因となる潜在的な潜在的な病原性バリアントを特定し、臨床的に関連する可能性のある遺伝子型と表現型の関連性をマイニングできることを示しています。
上記で示した従来のヒトノックアウト分析に加えて、我々はJEWELの豊富な表現型データを活用して、LOEUFスコアによって示されるように、LoF変異体に対して高度に不耐性であると考えられる遺伝子にヘテロ接合型LoF変異体を持つ個体を検査した。複数の LoF バリアントを持つ遺伝子に焦点を当て、受容体様タンパク質チロシン ホスファターゼ (図2E)(58)。 6 人中 3 人について詳細な臨床情報が得られ、心筋梗塞、腎不全、高血圧、薬疹などのいくつかの共通の表現型を示しました (図 2Fおよび表 S17)。 PTPRD遺伝子には 13 個の転写物があり、ほとんどのエクソン同一であり、複数の転写物間で共有されます。しかし、LoF バリアントによって影響を受けた転写物は 2 つだけであり、これは偶然に予想されるよりも大幅に少ないです ( P = 0.005、順列検定。材料と方法、図 2E、および図 S9 を参照)。私たちは、報告されているPTPRDのヒトノックアウトに関する文献を検索しました。症例報告では、知的障害、三角頭症、難聴との関連が疑われるPTPRDのホモ接合性微小欠失を有する小児について記載されています ( 59 )。さらに、Ptprdノックアウトマウスは、不完全な浸透度を伴う離乳前の致死性を示します ( 60 )。これらのデータと低い LOEUF スコアを考慮すると、PTPRD タンパク質の破壊は非常に有害である可能性があります。ただし、LoF が限られた数の転写物にのみ影響を与える場合、または影響を受ける転写物の機能的重要性が低い場合、その結果はより許容できる可能性があります。さらにゲノムワイドなスキャンにより、さらに 2 つの PTPR ファミリー遺伝子を含む、限られた転写産物セットで LoF バリアントが発生する追加の遺伝子が同定されました。これらの遺伝子は両方とも LOEUF ビンの最下位であるPTPRS (LOEUF = 0.25、P = 0.002) およびPTPRM (LOEUF)にあります。 = 0.23、P= 0.009) (表 S18)。この結果は、一般に LoF に対して不耐性の遺伝子であっても、特定の LoF の表現型への影響が軽減される可能性があることを示唆しています。ただし、非ランダムサンプリングや LoF 転写産物の不正確なアノテーションなどの他の要因も考慮する必要があります。日本人集団または他の集団からの WGS を使用したさらなる研究が必要です。上記の例のように、LoF によって破壊される可能性がある場合の遺伝子機能の全範囲を理解するには、遺伝情報を詳細な臨床データと統合する必要性を強調します。これらの発見は、LoF に対する耐性が遺伝子レベルだけでなく転写物レベルでも評価されるべきであることも示唆しています。

ネアンデルタール人とデニソワ人から遺伝子移入された配列

EA はデニソワ人やネアンデルタール人からの遺伝子移入配列を保持しています ( 61 – 63 )。しかし、遺伝子移入の調査はこれまでのところ、東アジアの少数のサンプルに限定されている。ネアンデルタール人またはデニソワ人から遺伝子移入されたと思われる配列を検出するために、現代の参照集団を使用しない最近開発された確率的手法である IBDmix を適用しました (「材料と方法」を参照)。個人ベースでは、JEWEL の個人は約 49 Mb のネアンデルタール人由来の配列と 1.47 Mb のデニソワ人由来の配列を保有しています (表 S19)。合計で、ネアンデルタール人から遺伝子移入されたと思われる3079個のセグメントと、デニソワ人から遺伝子移入されたと考えられる210個のセグメントを特定し、それぞれゲノムの772 Mbと31.46 Mbをカバーしました(図3A)。我々の結果は、1000ゲノムプロジェクト(1KGP)における日本人104人の分析に基づいて、以前に報告されたネアンデルタール人が遺伝子移入したセグメントの85%(2843人中2414人)を再現した(図S10)(63)。注目すべきことに、ネアンデルタール人が遺伝子移入した地域の47%(3079個中1439個)は、東京の1KGP日本人(JPT)データセットでは特定されず、そのうち77%(1439個中1113個)は頻度が5%未満で稀なものであった。 JEWELにおける遺伝子移入されたネアンデルタール人セグメントのPCAでは、サブ地域差は示されませんでした(図S11)。我々は JEWELにおけるデニソワ人の遺伝子移入を、1KGPデータセットの集団におけるデニソワ人の遺伝子移入、およびデニソワ人の祖先の割合が高いパプア人およびフィリピンのアイタと比較しました( 62、64 )。分析の結果、JEWELのデニソワ人様セグメントはEA集団のデニソワ人様セグメントと著しく重複しているが、パプア人およびフィリピンのアイタ人とは統計的有意性が見つからなかったことが明らかになり、日本人のデニソワ人遺伝子移入はパプア人およびフィリピンのアイタ人との関連性が低い可能性があることが示された(表 S20 および注記 S6)。
図3。日本人集団における古代ネアンデルタール人またはデニソワ人からの遺伝子移入配列。
A ) 各染色体にわたる遺伝子移入配列の分布を示す密度プロット。青色で示された上のトラックは、ネアンデルタール人から遺伝子移入されたと思われる配列を表し、下のトラックはデニソワ人に由来する配列を示しています。 ( B ) NKX6-1遺伝子座のデニソワ人から遺伝子移入されたと考えられる変異体は、日本人集団における T2D と関連しています。三角形は遺伝子移入された変異体を示し、灰色の点は遺伝子移入されていない変異体を示しました。 ( C ) F5遺伝子におけるネアンデルタール人からの遺伝子移入変異はPT と関連しています。


続いて、BBJ から生成された GWAS 概要統計に基づいて、同定された遺伝子移入配列の 106 形質に対する表現型の影響を調べました (「材料と方法」を参照)。我々は、49 の表現型 (デニソワ人由来の 2 つとネアンデルタール人由来の 42 つ) に関連する 44 の古風なセグメントを特定しました。これらのうち、43 の関連性は以前の研究と比較して報告されていません ( 65 )。我々は、代替法SPrimeによって44個の古風セグメントのうち39個を検証し、SPrimeによって検出されなかった5個のセグメントがネアンデルタール人のゲノムと高い一致率を示したことを確認した(「材料と方法」を参照)( 62 )。POLR3Eのデニソワ人遺伝セグメントは身長と関連していた。NKX6-1のセグメントは2型糖尿病(T2D)と関連していた(図3Bおよび表1 )。 NKX6-1セグメントは、パプア人、中国人 [北京の漢民族 (CHB) および南部漢民族 (CHS)]、フィンランド人などの他の集団でも確認されています ( 62 )。さらに、このセグメントの古風な変異は、FinnGen プロジェクトから得られた GWAS データ ( rs75560957 でmin = 8.65 × 10 -10 )を使用して T2D と関連していることが判明しました( 14 )。ネアンデルタール人由来のセグメントについては、T2D、冠動脈疾患 (CAD)、安定狭心症 (SAP)、アトピー性皮膚炎 (AD)、バセドウ病 (GD)、前立腺がん (PrCa)、および関節リウマチ(RA)(表1)。経路分析により、「インスリン分泌の調節」が関連経路のトップとして特定されました ( P = 1.9 × 10 -4 )。ADAMTS7遺伝子座では、遺伝子移入された主要な一塩基多型 (SNP) である rs11639375 が CAD および SAP に対して保護的であることが報告されています。この SNP はすべての主要集団で高頻度で観察されますが、さらに詳しく調べると、日本語の rs11639375 はネアンデルタール人から遺伝子移入されたと思われるハプロタイプ内に存在するようです。このハプロタイプは、rs11639375 ( 2 > 0.7)と強い連鎖不平衡 (LD) を示す 39 個の潜在的に古風な変異体で構成されています。これらの変異はEAとラテン系アメリカ人に限定されており、他の集団グループには存在しないか、または非常に低い頻度で存在します(表S21)。これらのデータは、この保護的変異体 rs11639375 が一度 EA によって失われ、その後遺伝子移入によって復元されたことを示唆している可能性があります。ただし、この仮説を実証するにはさらなる分析が必要です (注 S7)。私たちは、AD の原因となるバリアントである rs12637953 がCCDC80に存在することを観察しました。遺伝子座はネアンデルタール人から受け継がれた可能性が高い。この変異体は機械学習によるインシリコ予測によって、CD1a +ランゲルハンス細胞および皮膚表皮細胞におけるエンハンサーの発現レベルの低下を介して機能する可能性があることが示唆され、さらに実験的に検証されました ( 66、67 )GLP1R遺伝子座の遺伝子移入セグメントは注目に値します。以前に報告されたように、この遺伝子座の変異体は、大規模な日本の GWAS ( n = 191,764) では T2D と関連していることが示されましたが、ヨーロッパの GWAS ( N = 159,208) ではそうではありませんでした ( 68 )。私たちの分析を通じて、主要な変異体は古代、特にネアンデルタール人に起源を持っている可能性が高いことを特定しました。 1KGPデータを使用したさらなる分析により、この遺伝子移入されたセグメントはアジア人には存在するが、ヨーロッパ人には存在しないことが示され、これがGWASシグナルの不一致の原因となる可能性がある。疾患に関連する古風なセグメントに加えて、35 の量的形質に関連する 37 の異なるセグメントを特定しました (表 S22)。一例として、凝固因子V(F5)遺伝子の古風変異体は、出血形質(PT)と正の関連を示した(図3C)。注目すべきことに、同じセグメントがアイスランド人におけるPTと関連している( 69 )。また、重篤な新型コロナウイルス感染症(COVID-19)との関連が報告されているネアンデルタール人由来のセグメント(chr3: 45,859,651 ~ 45,909,024)がJEWELでは検出されなかったことも確認した( 70 )。最後に、顕著な遺伝子移入変異体は、ヨーロッパ人と比較してEAにおいて明確な集団特異性を示しました(図S12)。 JEWELのAFはヨーロッパ人に比べて有意に高く( P =4.66×10 -8、対応のあるt検定)、日本人集団のAF中央値はヨーロッパ人集団のAFの21.5倍であった。
表1。日本人集団における疾患表現型に関連する遺伝子移入セグメント。
ビューアで開く

日本人集団における進化的選択プロファイル

私たちはゲノムワイドスキャンを実施し、統合ハプロタイプスコア(iHS)解析とFastSMCという2つの方法を用いて日本人集団において選択の対象となる可能性が高い候補ゲノム座位を検出しました。 iHS メソッドは、段階的なハプロタイプ情報に基づいて選択的スイープを識別するのに効果的です ( 71 )。 FastSMC は、指定された合体時間でペアワイズ同一バイディセント (IBD) 領域を迅速に識別するように設計された ASMC アルゴリズムの拡張機能です。 IBD共有を推論することにより、分析では限られた数の共通祖先から過剰遺伝した領域を特定でき、最近の正の選択(例えば、好ましいハプロタイプの頻度の急速な上昇)を潜在的に示している(72)。 iHS により、主要組織適合性複合体 (MHC)、アルコール脱水素酵素 ( ADH ) クラスター、およびALDH2を含む、ゲノム全体の有意性閾値 ( iHS = 8.24 × 10 -9 )でのポジティブ選択下の 3 つの遺伝子座を同定しました(表 2および図1)。 .4A)。分位数-分位数プロットは、系統的な偏りがないことを示しました (図 S13)。さらに、西部、東部、北東部、南部、沖縄の 5 つの代表的な地域にわたって、選択プロファイルにおける潜在的な地域差を調査しました。ホンド地域全体で同様の選択プロファイルが観察されました。ただし、 ADHクラスターとALDH2のシグナルは沖縄では比較的弱く、ゲノム全体の重要性に達しなかったことに注意してください (図 S14 および表 S23)。これらの違いは、沖縄のサンプルサイズが限られているか、選択圧力の変化によるものである可能性があり、さらなる研究が必要です。さらに、iHS で観察されたシグナルを検証するための補完的なアプローチとして FastSMC メソッドを使用しました。最初に、密度最近の合体 (DRC) 統計の適合性を評価しました。経験的ヌルモデルの密度プロットと分位数-分位数プロットは、ガンマフィッティングが一般的によく適合していることを示しましたが、大きなDRC値をうまく処理できない可能性があり、保守的な近似P値につながります(図S15)。合計すると、この方法により、過去 50 世代で選択の標的となる可能性がある 4 つの候補座位が同定されました。これには、iHS で重要な 3 つの座位 ( ADHALDH2、および MHC) と候補座位 2p25.3 が含まれます (表 3および図 4B )。 。これら 3 つの遺伝子座 ( ADHALDH2、および MHC) は、以前の研究でもシングルトン密度スコア (SDS) 法を使用して検出され ( 73 )、自己免疫系およびアルコール代謝経路に対する強い選択圧の存在がさらに実証されました。日本の人口。
表2. iHS 分析によりポジティブセレクション下の重要な遺伝子座が検出されました。
BP、塩基対の位置。 DAF、派生AF。 CHR、染色体。
ビューアで開く
図4。 iHS および FastSMC 分析に基づく日本人集団におけるポジティブ選択シグナル。
A ) iHS 分析における常染色体変異のiHSのゲノム全体にわたる分布を示すマンハッタン プロット。赤い水平破線は、ゲノム全体の有意性閾値iHS = 8.24 × 10 -9を示します。 ( B ) FastSMC 分析のマンハッタン プロット。ゲノム全体の有意性閾値はDRC50 = 5 × 10 -8に設定されます。
ビューアで開く
CHR位置 (Mb)サイトバンドP DRC50候補遺伝子
22.79–5.272p25.34.91× 10−21ADI1/コレック11
499.71–100.064q236.18× 10−20ADHクラスター
627.05~32.746時21分3.30× 10−50MHC
12113.15~113.4312q241.97× 10−23ALDH2
表 3。過去 50 世代以内に FastSMC による有意なポジティブセレクションを受けていることが検出された候補遺伝子座。
DRC50、過去 50 世代内の最近の合体統計の密度。
ビューアで開く

議論

この研究では、日本の 7 つの異なる地域にわたる 3,256 人の日本人からの臨床データと WGS データで構成されるデータセットである JEWEL を生成しました。この包括的な遺伝データセットにより、日本人の人口と医学遺伝学に関する未知の領域を掘り下げることができます。この研究のいくつかのユニークな側面を強調します。私たちの分析により、日本人の緻密な人口構造が明らかになり、「三者起源」モデルを反映し、裏付けを与えています。私たちはJEWELの潜在的な臨床用途を紹介し、日本人におけるネアンデルタール人とデニソワ人の遺伝的遺産を調査し、さまざまな表現型との関連を調査しました。これはこれまでで最大の非ヨーロッパの分析を構成します。さらに、最近の選択によるゲノム遺伝子座の同定により、日本人集団における適応進化についての理解が深まりました。
JEWEL には豊富な変異源と日本全国のサンプルが包括的に含まれており、PCA-UMAP および集団遺伝学分析と組み合わせることで、より洗練された日本の人口構造を構築し、日本人集団の三祖起源を提案することができました。 BBJ からの配列データを使用した以前の PCA-UMAP 分析と比較して、WGS からの稀なバリアントに基づく私たちの分析は、ホンド語での日本語を区別するための解像度が向上しています ( 35 )。これは、まれな変異体は通常、一般的な変異体よりも最近出現したものであり、詳細な遺伝子構造を明らかにする上でより有益である可能性があるためであると私たちは考えています。現在の分析では、すべての沖縄県民が PCA-UMAP の単一クラスターにグループ化されました。これはおそらくサンプルサイズが限られており、沖縄内の異なる島嶼グループからの亜集団間の既知の遺伝的異質性を捕捉できない可能性があるためである( 74 )。日本の多様な地域からのサンプルを組み込むことにより、我々の研究はホンド語日本人の遺伝的異質性を明らかにしており、これは日本の47都道府県すべての11,0​​69人からのアレイデータを調べた最近の研究とよく一致している( 34 )。さらに、我々の研究は、日本人集団の潜在的な祖先構成要素についての追加の洞察を提供し、それはWGSからのSNPの公平な選択によって強化される可能性があると考えています(注S8)。
日本人集団の祖先起源に関しては、広く受け入れられている「二重構造」モデルや最近提案された三者起源モデルなど、既存のモデルの文脈でデータを解釈することをお勧めします。二重構造モデルは、現代の日本の人口が、先住民族の狩猟採集民である縄文人とアジア大陸からの稲作農耕民である弥生人の混合によって形成されたことを示唆しており、広範囲に研究されており、主要な作業仮説と考えられている( 75 – 77 )。 。 「内部二重構造」と名付けられた洗練されたモデルは、複数の移動波の影響を受けて、「中心軸」の内陸地域と「周縁」の沿岸地域の間に遺伝的変異が存在することを提案しました( 78 )。弥生時代と帝国古墳時代の古代ゲノムに関する最近の研究では、さらに洗練されたモデルが導入され、日本人集団には縄文時代、NEA時代、EA時代の3つの祖先起源がある可能性があることが示唆されています( 41 )。これは、大陸の祖先の起源の可能性を具体的に示唆する興味深い仮説です。しかし、1つの限界は、古代ゲノムサンプル、特に弥生時代と古墳時代のゲノムサンプルの数が依然として限られていることです。その結果、ある程度の不確実性が残り、仮説はまだ完全に検証されていません。縄文およびEA遺伝要素(例えば漢民族)の存在は、日本人集団のPCAで観察される二重クラスターパターンを説明するために提案されている。これと一致して、今回の研究と以前の研究は、沖縄が縄文との遺伝的親和性が高い一方、西部または西部に近い地域、本土の他の地域と比較して遺伝的に中国人に近いことを示している( 33、34、40 )。 qpAdm 分析は、日本人の潜在的な祖先の起源についてのさらなる洞察を提供します。北東部を除くデータセット全体で、縄文、EA、NEA を含む 3 部構成モデルが合理的に適合していることが観察されました。重要なのは、Jomon、EA、NEA のペアごとの組み合わせを使用した 2 方向モデルでは、成功した結果が得られなかったことです。この結果は、三祖モデルに対するさらなる支持を追加し、伝統的な「二重構造」モデルでは不十分である可能性があることを示しています。西洋人が中国人に近い遺伝的類似性を持っていたという観察は、弥生時代以降のEAの祖先を持つ人々の大量流入と潜在的に関連しており、古墳時代と奈良時代(250年から794年まで)を通じて朝鮮半島からの継続的な移住を示す歴史的証拠がある。 CE)76、79 。この継続的な流入は、古墳時代における日本初の中央集権的な帝国国家の形成に役割を果たした可能性があり、それは西(現在の奈良県)に設立された(80)。この時期には、中国の影響を特徴とする技術的および文化的な流入も見られました。これは、中国式の正当化、言語、教育システムの包括的な採用に明らかです ( 81 )。
私たちの分析では、東北地方の現在の日本人で最も高いK2が、縄文系やEA系の祖先と並ぶ追加の遺伝的起源として機能する可能性があることを観察しました。我々は、この成分が西洋に比べてTK時代の縄文および古代韓国のゲノムと著しく高い遺伝的親和性を持っていることを観察しました。東北は、三祖モデルの代わりに韓国-TK_2と漢のいずれかを使用した二元混合モデルによって説明できる可能性があります。 Korea-TK_2 は、66% China_WLR_BA と 34% 縄文系としてモデル化するか、32% NEA、43% EA、25% 縄文系の三祖モデルによってモデル化できることに注意してください ( 47 )。これらのデータは、北東部とNEAの間の潜在的な関連性を示唆している可能性がありますが、この関連性を実証するには追加の証拠が必要です。歴史的記録によると、北東部には、文字通り「エビの野蛮人」と訳される、いわゆる蝦夷の人々が住んでいたことが示されています ( 82 )。蝦夷の起源はどういうわけか十分研究されておらず、議論の余地があるが、NEAと関連している可能性があることが提案されている( 83、84 )。さらに、蝦夷の人々は歴史的な出雲方言に似た、独特のジャポニック言語を話していた可能性があることが示唆されています ( 85 )。さらに、東北地方と南部、特に日本に最初に稲作が導入されたことを示す証拠がある九州北部との間の地理的距離にもかかわらず( 86 )、東北北部の地元集団は初期の段階でもっぱら稲作を採用していたと報告されている。弥生時代(87年)。このつながりは、日本海の海岸線に沿った人間の移動によって促進された可能性があり、東北地方と弥生時代の稲作の導入とのつながりを示唆する可能性があります。 Korea-TK_2 と漢を使用した二元配置モデルは許容可能な適合を示していますが、これは大陸移民による北東部への縄文系の祖先の導入を暗示しており、歴史的文脈と矛盾しているように思われることに注意してください ( 76 )。三祖モデルのフィッティングが失敗したのは、北東部における縄文系の祖先の割合が高いことに起因する可能性があります。おそらく、より縄文系の祖先を持つ地元集団との混合、または事前にコンパイルされたアレン古代 DNA リソース (AADR) データセットへの依存の限界によるものと考えられます。これには 1240,000 の SNP サイトのみが含まれます。トランスバージョン部位での追加のフィルタリングにより、分析に利用できる SNP の数がさらに減少しました。理想的には、この制限は生のシーケンシング アラインメント データを直接処理することで解決されるでしょう。ただし、この広範な分析は現在の研究の範囲を超えています。さらにf4分析では、北東部の古代NEA集団の中から特定の祖先の起源を特定できませんでした。この重要な問題は、NEA から新しくより広範囲かつ高密度にサンプリングされた古代ゲノムを最適に関与させて、今後の調​​査を正当化するものです。最後に、考古学、文化、言語学などの他の領域のデータと合わせて遺伝的証拠を調査することを提案します。この学際的なアプローチは、日本人の神秘的な先史時代への理解を高めることができます。さらに、二重構造と三部構成起源モデルはどちらも単純化を表しますが、後者にはいくつかの利点があることを認識する必要があります (S9 に注意)。実際の人口履歴はより複雑である可能性があり、さらなる分析が必要です。
集団構造分析に加えて、JEWEL のコーディングバリアントを広範囲に分析しました。私たちは、遺伝子セット内の LoF バリアントが、偶然に予想されていたより限られた転写物に限定されていることが観察されました。場合によっては、遺伝子が高度に制約されており、それらの LoF 変異を持つ保因者は共通の臨床表現型を示します。以前の研究では、アイソフォーム発現データを組み込むことで、より正確な転写物レベルのアノテーションが達成できることが示されました ( 88 )。我々の結果は、WGS データが、特定の遺伝子内の転写物全体で LoF の不耐性を比較することにより、制約スペクトルの新しい測定基準またはスコアを開発する潜在的な機会を提供することを示唆しています。私たちは、JEWEL で利用可能な広範な臨床情報を効果的に使用して、遺伝子型と表現型の間の潜在的な関連性を明らかにできることを実証しました。
私たちは、古風に遺伝子移入された変異体が、現代日本人の免疫表現型や代謝表現型を含む幅広い表現型に関連していることを報告しました。EPAS1遺伝子座に遺伝子移入されたデニソワ人配列が、チベット人が高地環境に適応するのに役立っていることが示されています( 89 )。しかし、 EPAS1などのいくつかの特定の例を除けば、特にネアンデルタール人からの遺伝子移入と比較すると、デニソワ人の遺伝子移入がヒトの表現型に及ぼす影響は、依然としてあまり理解されていない( 90 )。これに関連して、我々は、 NKX6-1POLR3Eのデニソワ人由来のセグメントが、それぞれT2Dと身長に関連していることを示した。以前の研究では、公的に利用可能なBBJ GWASサムスタットと事前に呼び出された古風な変異体を使用して、疾患の表現型に関連する可能性の高いネアンデルタール人遺伝子移入セグメントが報告されていました( 65 )。私たちの研究は、報告されたすべての発見を再現し、43の追加の関連性を報告しました。これにより、表現型に関連する遺伝子移入の数が大幅に増加し、日本人集団における古期配列の表現型への影響についての理解が深まりました。特に、集団特異性と、T2Dの治療のためのグルカゴン様ペプチド-1 (GLP-1) 類似体である経口セマグルチドの開発を考慮すると、ネアンデルタール人由来のGLP1R変異体とT2Dとの関連性は興味深い(91 )。将来の研究では、これらの古風な変異を持つ個人がセマグルチド治療に対して異なる反応を示すかどうかを調査し、創薬の潜在的な標的となる可能性のある追加の古風セグメントの存在を調査する可能性があります。この特定の例に加えて、我々はヨーロッパ人に比べてEAでは全体的に重要な遺伝子移入バリアントが集団特異性を示すことを実証した。このことは、ヨーロッパのデータのみを調査する場合には、これらの古風なバリアントと表現型の関連性が見逃される可能性があることを示唆している。
私たちの選択分析は、SDS や ASMC などの方法を使用して、日本人集団における最近の選択サインのゲノム全体のスキャンを補完します。 BBJ の 170,882 人に基づく研究では、ASMC を使用した DRC 150統計に基づいて、過去 150 世代で 29 の候補遺伝子座が選択中であることが示唆されました。さらに、ADH クラスターと MHC を含む 2 つの遺伝子座が iHS 法によって同定されました ( 92 )。ただし、DRC ベースの統計を使用した、より最近の時間枠内の選択プロファイルはまだ調査されていません。私たちの分析は、iHS、FastSMC、および以前に報告されたSDS分析によると、MHCADH、およびALDH2が最近のポジティブセレクション下にあることを示しました。沖縄グループとホンドグループの間では ADH/ ALDH2シグナルに潜在的な差異があり、これはさらなる分析を正当化する可能性があります (S10 に注意)。 2p25.3 にも候補遺伝子座が観察されました。この遺伝子座のいくつかの遺伝子は候補遺伝子として考慮する必要がありますが、特定の遺伝子に焦点を当てる前にさらなる複製解析を行うことをお勧めします。
要約すると、私たちの研究は、これまでマイクロアレイデータでは識別できなかった日本人集団の遺伝的特徴を明らかにしました。この研究で作成された広範なデータセットは、日本人内外の将来の遺伝子研究の参考としても役立ちます。この研究では、個別化医療やその他の臨床現場におけるWGSの応用可能性を強調し、遺伝的特徴を解読し、集団特有の方法で人類の歴史をより深く理解するためにWGSを多様な集団に拡張することの重要性を強調しました。

材料と方法

WGS とバリアント呼び出し

簡単に説明すると、シーケンスは 2 つの異なる深度で行われました。(i) Illumina HiSeq 2500 (急速モードまたは V4) または Illumina HiSeq X Five プラットフォームを使用して、1502 人の個体を約 30 倍 (平均、32.3、中央値、31.8) でシーケンスしました。 (ii) Illumina HiSeq X Five プラットフォームを使用して、1786 人の個人を約 20 倍の深さ (平均、19.9、中央値、19.5) で配列決定しました。標準的な Illumina プロトコールを使用してシーケンスライブラリを調製し、ペアエンドシーケンスを実行しました (2 × 125、2 × 150、または 2 × 160 bp)。シーケンス後、サンプル品質管理 (QC) を実行して、シーケンスされた低品質の近縁個体を削除しました。合計で、3288 人中 32 人が除外され、3256 個のサンプルが残りました (S2 に注意)。 BWA-MEM (v0.7.5 または v0.7.13) を使用してリードをヒト参照 (hg19) にアライメントし、重複したリードを削除した後、GATK (v3.2-2) によって提案されたベスト プラクティスに従って共同ジェノタイピング コールを実行しました。 。以下の除外基準を使用して、さらに SNP QC を実行しました。(i) 読み取り深度 (DP) < 5。 (ii) 遺伝子型の品質 (GQ) < 20; (iii) DP > 60 または GQ > 95; (iv) バリアントはバリアント品質スコア再調整フィルタリングに失敗しました。 WGS の詳細な手順も以前に説明されています ( 73 )。 3,256 人の個人のうち、3,157 人のアレイベースのジェノタイピング データが利用可能でした。これらの個人は、Illumina Human OmniExpress Exome BeadChip、または Illumina HumanOmniExpress と HumanExome BeadChip の組み合わせを使用して遺伝子型特定されました。我々は、コール率 ≥ 99% および Hardy-Weinberg 平衡P値 ( HWE ) ≥ 1 × 10 -6を有する QC 合格 SNP の遺伝子型決定一致率を比較しました。 20×と30×の2つのサブコホートではシーケンスの深さが異なるため、Ti/Tv、一致、ヘテロ接合率、個人あたりのシングルトンコーディングバリアントの数など、ジェノタイピングの品質に関連する指標を調べました。 2 つのコホート間で同等の値が観察されました (表 S3)。シングルトンの除去後、Eagle (v2.4.1) によって、デフォルトのパラメーター ( 93 ) を使用して各染色体上のすべての二対立遺伝子変異体に対してフェーズ分けが実行されました。

集団構造と集団遺伝解析

PCA は、プルーニングされた一般的または稀なバリアントに基づいて PLINK (v1.9) によって実行されました。一般的なバリアントをマイナー AF (MAF) ≥ 0.01 を持つバリアント、まれなバリアントを MAF が 0.001 ~ 0.01 のバリアントと定義しました。両方のカテゴリのバリアントに対してプルーニングを実行し、パラメータ --indep 500、50、0.2 を使用して PLINK によってタグ SNP を選択しました。 MHC 領域の変異体 (chr6: 25 ~ 34 Mb、hg19) は分析から除外されました。剪定後に合計 184,036 個の一般的な変異体と 1,835,116 個の希少な変異体が得られ、PCA に使用されました。レアバリアントベースの PCA からの上位 20 PC の UMAP 分析は、R (バージョン 3.1) の UMAP パッケージ (v1.1) を使用して実行されました。 ADMIXTURE (v1.3.0) は、184,036 の枝刈りされた一般的なバリアント ( 94 ) に基づく混合分析に使用されました。最適なK値を決定するために、Structure Selector ソフトウェア ( 38 ) を使用しました。不均衡なサンプル選択を避けるために、各地域から 50 個のサンプルをランダムに選択し (沖縄を除く。28 個のサンプルすべてを含めた)、K = 2 ~ 6 の混合物分析を各実行で 3 回繰り返して実行しました。さらに、badMIXTURE を使用して、推奨される分析手順に従ってモデルのフィッティングを視覚化しました ( 39 )。
ADMIXTOOLS (v7.0.2) と admixr パッケージを使用して、4および3統計値 ( 95 ) を計算しました。4比率を4 の形式で計算しました(a: 西双版納のチャイニーズダイ、b: CHB、x: 対象集団、c: 縄文、o: ナイジェリア、イバダンのヨルバ)。この式では、「a」は「b」に関連するが混合には関与しない母集団を表します。一方、b と "c" は混合に寄与するソース集団であり、x はターゲット混合集団です。最後の「o」は外集団母集団として機能します。 a と 1-a は CHB と縄文からの混合物の割合を反映しています。サンプルサイズを均等にするために、PCA-UMAP 情報を考慮して各地域から約 30 人の個人を選択し、AADR データセット (V54.1.p1) と統合して、AADR パネルの「1240K」バリアントと一致させました。分析には変換部位のみを使用しました。4比テストには、以前の研究から「Japan_HG_Jomon」とラベル付けされた縄文個体を使用しました41 )。さらに、外集団3統計を3 の形式で計算しました(a: 対象集団、b: 中国の漢民族、o: パプア人)。この統計は、2 つのソース集団 a と b の間の共有遺伝的浮動を反映しており、値が大きいほど共有遺伝的浮動が大きいことを示します。 JEWEL のサブリージョン グループを a、漢民族のサブリージョン グループを b、ヨルバ語のサブリージョン グループを o に設定します。また、4 (Mbuti、古代ゲノム、北東部、西部) を使用して4統計を計算し、50,000 を超える SNP によって裏付けられた結果に焦点を当てました。以前の研究から中国、韓国、日本の古代ゲノムを含めまし( 41、42、45、47、96 )。以前の研究で使用したように、China_WLR_BA_o と China_HMMH_MN をグループ化することで NEA を定義しました ( 41 )。また、前回のレポートに続き、Korea-TK_2 グループを AKG_10203 および AKG_10207 として定義しました。このグループは、現代の日本人および縄文系の祖先を持つ他の古代日本人グループとより密接に関連していることが示されています ( 47 )。我々は、以前の研究で概説された構成に従って三元または二元混合をモデル化するために qpAdm 解析 (qpAdm バージョン 1520) を実施しました ( 41 )。右グループとして、サルデーニャ人 ( n = 3)、クスンダ人 ( n = 2)、パプア人 ( n = 14)、ダイ人 ( n = 4)、アミ人 ( n = 2)、ナシ族 ( n = 3)、天元 ( n= 1)、Chokhopani ( n = 1)、および Mal'ta ( n = 1)、オプションを「allsnps: YES」に設定。

LoF バリアントの特定

ソフトウェアVEP(v87)およびLoF転写効果推定パッケージ(36)を使用して、すべての二対立遺伝子変異体に対して変異体アノテーションを実行しました。ミスセンス亜種については、30 の異なるツールからの注釈またはコンピュータでの予測を組み込み、リスク スコアは、亜種が有害であることをサポートするツールの数の合計でした ( 97 )。我々は、LoF バリアントを、途中で終止コドンを引き起こすもの (ストップゲイン)、コード配列をシフトさせる小さなサイズのインデル (フレームシフト)、またはスプライシング部位に隣接する 2 つのヌクレオチドを変更するバリアント (スプライシング バリアント) として定義しました。 LoF 転写効果推定ツールを使用して、アノテーションの可能性のあるアーティファクト (転写物の 3' 末端にある LoF 変異体など) を除外することで、信頼性の高い LoF 変異体をフィルタリングします。マイナー対立遺伝子数が 3 以上の LoF バリアントについては、R (v3.1) を使用したロジスティック回帰分析によって、LoF バリアントの発生が UMAP1/2 と関連しているかどうかを調べました。

人間のノックアウト

我々は、稀なホモ接合性 LoF バリアント (MAF < 0.01) または稀な複合ヘテロ接合性 LoF バリアントを保有する個人をスクリーニングしました。この分析は、ClinVar データベース (v20201208) ( www.ncbi.nlm.nih.gov/clinvar/ ) 内の病的バリアントを含む遺伝子内の LoF バリアントに限定しました。潜在的な複合ヘテロ接合体を特定するために、同じ個人の同じ遺伝子内に複数の LoF バリアントが存在する例をフィルタリングし、段階的なハプロタイプを調べました。すべてのヒトノックアウト候補について、手動でキュレーションを実行し、Integrative Genomics Viewer によって生のアライメント読み取りを視覚的に検査しました。 LoF バリアントが予想よりも少ない転写産物で偶然発生した遺伝子を特定するために、複数の LoF バリアントを持つ 4192 個の遺伝子を選択し、単純化された順列ベースのテストを実行しました。N 個の LoF バリアントを持つ遺伝子について、これらのN 個のLoFによって影響を受ける転写物の実際の数を合計しJとして示します。次に、GENCODE 遺伝子アノテーション (v19) ( www.gencodegenes.org/human/ ) に基づいて遺伝子のコード領域内のN個の位置をランダムに選択し、 N個の位置と重複する転写物の総数をカウントしKとして示します。この手順を 1000 回繰り返して、 1から1000までの値のリストを取得しました。経験的順列P値は、昇順にソートされた1000 K値の中のJのランクとして計算されました。

遺伝子移入された配列および変異体の検出

ネアンデルタール人またはデニソワ人から遺伝子移入された可能性が高い配列を同定するために、我々は最近開発された計算手法 IBDMix を適用しました ( 63 )。他の方法とは対照的に、IBDMix は遺伝子移入セグメントを推測するために古い参照ゲノムを使用しました。遺伝子移入分析のために次のフィルタリング手順を実行しました。簡単に言うと、ネアンデルタール人とデニソワ人のゲノムには、最小限のフィルター マスクが適用されました ( https://bioinf.eva.mpg.de/から取得)。ヒトゲノム配列については、1KGP アクセシビリティ マスクを適用しました ( http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/supporting/accessible_genome_masks/20140520.strict_mask.autosomes.bedからダウンロード)。インデルの 5 bp 以内の配列をマスクし、常染色体のみを分析しました。連鎖スコア 4 以上のオッズ比の対数および 50 kb 以上の長さを有する、呼び出された遺伝子移入配列は、下流の分析のために保持されました。遺伝子移入されたバリアントを特定し、不完全な系統分類により誤って分類されたバリアントを除外するために、信頼性の高い遺伝子移入されたセグメントに焦点を当てました。簡単に説明すると、遺伝子移入された各セグメントの段階的ハプロタイプを取得し、古期状態が不明な変異部位を除外して、ネアンデルタール人とデニソワ人のゲノムとの一致率を計算しました。信頼性の高いデニソワ人セグメントは、デニソワ人の一致率 ≥ 0.5 およびネアンデルタール人の一致率 < 0.5 として定義されました。信頼性の高いネアンデルタール人セグメントは、ネアンデルタール人の一致率 ≥ 0.7 として定義されました。遺伝子移入されたハプロタイプの半分以上で観察された変異は、遺伝子移入された可能性の高い変異として選択されました。私たちは遺伝子移入された遺伝子変異をスクリーニングして、それらと疾患および量的形質の両方との関連を調べました。我々は、すべて BBJ データセットに基づいた、42 の疾患と 64 の量的形質を含む以前の研究からの要約統計を使用しました ( 98 )。ゲノム全体の有意水準 5 × 10 -8を超える関連性をフィルタリングしました。非古期バリアントとの LD による関連を除外するために、古期バリアントがリードバリアントではないすべての遺伝子座について、リード古風バリアントとリード GWAS バリアントの間の2を計算し、 2 < 0.9のペアを削除しました。我々は、1KGP JPTデータに基づいて、遺伝子移入セグメントと日本人集団内で以前に報告されたものとの比較を実施した( 63 )。さらに、代替方法である SPrime を使用して、重要な表現型の関連性を示した遺伝子移入セグメントを検証しました。この分析では、ナイジェリアのイバダンにあるヨルバ人をアウトグループとして設定し、デフォルトのパラメーターに従いました。デニソワ人から遺伝子移入された可能性が高いセグメントについては、これらのセグメントが以前の研究で報告されたセグメントと大幅に重複するかどうかを確認するために濃縮分析を実施しました ( 62)。検出されたセグメントが 30 未満の集団は、間接的な遺伝が原因である可能性があるため除外されました。この分析の 1KGP データは、次のリンクから取得しました: https://data.mendeley.com/datasets/y7hyt83vxr/1。フィリピンの Ayta データは以前の研究から得られたものです ( 68 )。エンリッチメント分析を実行するには、Bedtools の「fisher」ユーティリティを使用しました ( https://bedtools.readthedocs.io )。私たちは、疾患に関連する古風な変異を含む遺伝子が豊富に存在する生物学的経路を特定するために経路解析を実施しました。この分析は Enrichr を使用して実行されました。 ( https://maayanlab.cloud/Enrichr/ )。NKX6-1遺伝子座の古風バリアントと T2D との関連を確認するために、FinnGen データベース ( https://r9.finngen.fi/ )から GWAS 概要統計を取得しました( 14 )。

自然選択に関する分析

selscan ソフトウェア (v1.3.0) を使用して、デフォルトのパラメーター ( 99 )を使用して iHS スコアを計算しました。 MAF ≥ 0.01 の常染色体二対立遺伝子変異体の分析を制限しました。次に、Ensembl によって提供されるヒト-チンパンジー-マカクのアラインメント ( http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase1/analysis_results/supporting/ancestral_alignments/からダウンロード) に基づいて、バリアントを保持しました。その祖先対立遺伝子はチンパンジーまたはマカクに存在していました。 iHS ( 100 )を計算するために、1KGP JPT データセットを使用して作成された日本固有の組換えマップを使用しました。 100 の AF ビンにわたる標準化されていない iHS スコアを正規化しました。おおよそのiHS値は、正規分布を仮定して、正規化された iHS スコアをフィッティングすることによって計算されました。ゲノム全体の有意性閾値は、ボンフェローニ補正 (0.05/6,066,864 バリアント) に基づいて8.24 × 10 -9と決定されました。潜在的な偽陽性シグナルを除外するために、極端に高いまたは低い組換え率を示す遺伝子座、重要な変異を 1 つだけ含む遺伝子座、および近くの領域に部分重複がある遺伝子座を削除しました。同じ手順を使用して、西部、東部、東北部、南部、沖縄の 5 つの代表的な地域のサンプルに対してサブ分析を実施しました。沖縄については、サンプルサイズが限られているため、分析を AF が 5% 以上の変異体に限定しました。 iHS に加えて、FastSMC を使用して、日本人集団における選択の標的と思われるゲノム遺伝子座を特定しました。このメソッドはマイクロアレイ データを使用して開発および調整されているため、Illumina HumanOmniExpressExome BeadChip アレイ、Illumina Infinium Asian Screening Array、および Affymetrix Japonica アレイに含まれるバリアントのスーパーセットを抽出しました。遺伝子座特異的 IBD 共有パターンを分析することにより、過去 50 世代内の DRC (DRC 50 ) が FastSMC によって計算されました。各スライディング ウィンドウの平均 DRC 50 を0.05 センチモルガンのサイズで要約しました。デコード ファイルは、1KGP JPT 人口統計および AF ファイルから作成されました。次に、ゲノム内の中立領域を使用して、平均化された DRC 50値にガンマ分布を当てはめました。我々はゲノムワイド解析に基づいて、日本人集団において正の選択を受けていると報告された遺伝子座を除外した( 73、92 )。さらに、DRC 統計に基づく選択の対象となっている証拠を示した領域を繰り返し削除しました。このヌル モデルに基づいて、おおよその片側P値を導出しました。ゲノム全体の有意性閾値は、DRC50に対して5 × 10 -8に設定されました。。 iHS または DRC 統計によってゲノム全体で有意であると特定された遺伝子座と既知の SV との間の重複を評価するために、ヒトゲノム構造変異コンソーシアム ( http://ftp.1000genomes.ebi.ac.uk/vol1 ) のフェーズ 2 データセットを分析しました。 /ftp/data_collections/HGSVC2/release/v1.0/PanGenie_results/pangenie_merged_multi_nosnvs.vcf.gz )。

謝辞

BBJ プロジェクトに参加しているボランティア全員、参加病院や研究施設の医師、医療スタッフ、研究スタッフに感謝の意を表します。 A. Tajima (金沢大学)、P. Qin (BGI)、M. Hudson (Max Planck Institute)、D. Falush (Institute Pasteur Shanghai)、D. Lawson (University of Bristol)、S. Middlegome (Trinity) に感謝します。 College Dublin) に役立つアドバイスを提供します。フィリピンのアイタの遺伝子移入データを提供してくれた M. Larena と M. Jakobsson (ウプサラ大学) に感謝します。 3 名の匿名の査読者からの建設的なコメントと提案に感謝いたします。 XL は、最初の草稿を批判的に読み、編集してくれた A. Lysenko (東京大学) に感謝します。 TGは、金沢大学さきがけプロジェクトの支援に感謝の意を表します。 Y.Ka.イルミナジャパンより講演謝礼をいただいております。
資金提供:本研究は、日本学術振興会(JSPS)科研費(JP20H00462 to CT)および日本医療研究開発機構(AMED)(JP21ek0109555、JP21tm0424220、JP21ck0106642、JP23ek0410114、およびJP23tm0424225 to CTおよびJP18km)の支援を受けました。 0605001 Y.KaとKMに)。
著者の貢献:概念フレームワークは XL、S.It.、TG、YM、KI、MH、および CT によって開発されました 方法論的設計は XL、S.It.、TG、YM、MH、および CT によって策定されました データのキュレーションYM、YI、S.Kos.、KI、および CT によって実行されました 分析パイプラインは XL、S.Koy.、KS、S.It.、および CT によって開発されました 正式な分析は XL、TG、KS、S によって実行されましたKos.、S.It.、および CT 視覚化タスクは XL、S.Koy.、KH、MH、および CT によって実行されました 検証は XL、ST、および CT によって実行されました 研究調査は XL、MK、YM、 KT、KS、ST、KI、および CT 元の草案は、XL、TG、Y.Ko.、S.Koy.、KH、KI、MH、および CT によって作成されました。 草案のレビューと編集は、XL によって行われました。 、TG、Y.Ko.、S.Koy.、MK、YM、YI、KH、KI、MH、S.It.、CT リソースは Y.Ka.、MK、YM、S.Ik によって取得されました。 、ST、KM、および CT 資金提供は Y.Ka.、KM、および CT によって行われました 監督は S.Ik.、MH、および CT によって行われました プロジェクトの管理は CT によって行われました すべての著者が結果をレビューし、最終バージョンを承認しました原稿の。
競合する利益:著者は、競合する利益がないことを宣言します。
データと資料の入手可能性:個人ゲノムデータをアクセス制御データとして、National Bioscience Database Center (NBDC) の英語版 Web サイト ( https://humandbs.biosciencedbc.jp/en/ ) で共有しました。生の FASTQ、BAM、および VCF ファイルを含む WGS データは、包括研究 ID hum0014 (現在のバージョン 30) で NBDC ヒト データベースに登録されました。データに関連付けられた子 ID は JGAS000381 および JGAS000114 です。開示データに対応する臨床情報は、日本の個人情報保護法に準拠した申請であれば、 BBJ公式ウェブサイト( https://biobankjp.org/ja/info/nbdc.html )から申請することができます。また、問題については、BBJ または NBDC に直接連絡することをお勧めします。 iHS および FastSMC 分析の要約統計量、IBDMix および Sprime によって呼び出される遺伝子移入セグメント、および AF 情報を含むサイト VCF ファイルは、理研 IMS の統計およびトランスレーショナル遺伝学研究室の Web サイトである JENGER から入手できます ( http:// jenger.riken.jp/ja/data)。論文の結論を評価するために必要なすべてのデータは、論文および/または補足資料に記載されています。



補足資料

この PDF ファイルには次のものが含まれています。

注 S1 ~ S10
図。 S1~S18
表 S1 ~ S24 の凡例
参考文献

この原稿のその他の補足資料には次のものが含まれます。

表S1~S24
https://www.science.org/doi/10.1126/sciadv.adi8419

Comments

Popular posts from this blog

大統領、「メキシコ第一主義」政策を強化 2024/3/24

Novavax COVID-19 ワクチン、アジュバント添加 2023/10/3

プーチン大統領の論文「ロシアと北朝鮮:長年にわたる友好と協力の伝統 全文 2024/6/18