학술논문

Deep learning-based polygenic architecture modeling : challenges and perspectives of polygenic risk score
Document Type
Dissertation/ Thesis
Source
Subject
Genetics
Polygenic risk score
Disease network
Semi-supervised learning
Deep learning
Language
English
Abstract
The Polygenic Risk Score (PRS) identifies the large and/or small contributions of tens to millions of inborn DNA variations in the human genome for diseases or traits and mathematically aggregates them to assess the individual genetic risk. Until recently, PRS was evaluated for a broad disease prediction and its potential as a biomarker in preventive medicine. However, the PRS approach has several limitations such as unclear usefulness and methodological challenges. These issues need to be improved or clarified before the PRS can be used across the population in mainstream clinical practice. However, the evidence and underlying research are still insufficient. In this dissertation, I focused on five aspects of the unclear usefulness and weakness in utilizing PRS: trans-ancestry transferability, the utility of prognostic prediction, the ability to capture pleiotropic effects, the lack of genome-wide association study summary statistics, and the addition of non-linear effects. To clarify the unclear usefulness of PRS, I evaluated and validated these challenges by using Biobank-scale genomic and phenotypic resources containing hundreds of thousands of participants. Furthermore, to overcome the methodological limitations of PRS, I proposed novel methods that calculate the genetic risk score with network analysis, semi-supervised learning, deep learning, and natural language processing. I hope that this dissertation contributes to overcoming the missing heritability problem by resolving the parts of heritability that have not been explained yet. Furthermore, it could suggest a direction for integrating both genomic and multi-omics data to compute PRS that represents an effective biomarker for personalized medicine.
다원 유전자성 위험 점수 (PRS, Polygenic risk score)는 인간 유전체 상의 수십-수백만 개의 유전적 변이가 질환 또는 형질에 미치는 크고 작은 기여를 식별하고, 이를 수학적 방법으로 집계하여 개개인의 질병 위험도를 평가하는 최신의 유전체 분석 접근법이다. 최근까지 PRS 접근법은 광범위한 질병 예측과 더불어 예방 의학에서의 잠재적인 생체 지표자로서의 후보 인자로 평가되고 있다. 하지만, PRS 접근법에는 여러 불명확한 유용성 그리고 방법론적 한계점들이 존재한다. 이러한 점들은 PRS가 인구 전반에 걸쳐 임상적으로 활용되기 전에 개선 혹은 명확한 규명이 필요한 과제이나, 그 근거와 기반이 되는 연구는 미흡하다. 따라서, 나는 이 학위 논문에서 5가지 측면에서 PRS 활용의 불분명한 유용성과 약점에 대해 평가하고, 성취한 결과에 기반하여 관점을 제시해보고자 했다. 첫 번째 연구로, 유럽인 기반의 대규모 전장 유전체 연관성 연구 (GWAS, Genome-wide association study) 요약 통계를 활용하여 한국인에서의 알츠하이머형 치매 PRS의 인종간 전이 가능성 (transferability)을 검증해보았다. 연구 결과, 유럽인 기반의 GWAS 요약 통계를 활용하여 최적의 PRS 모델에 기여하는 39개의 유럽인-한국인 공통의 유전변이를 식별하였고, 이를 통해 구성된 유전적 위험 점수가 한국인에서의 알츠하이머형 치매뿐만 아니라, 기억 상실 경증 인지 장애, 아밀로이드 베타 침착, 그리고 발병에 이르는 시기를 예측하는 것에서도 효과적임을 검증하였다. 두 번째로, 대규모의 영국인 바이오뱅크 코호트를 활용하여 심혈관 질환 혹은 제2형 당뇨병 관련 PRS가 심혈관계 사망에 유의미한 예후 예측 인자인지 조사하였고, 추가로 Elastic-Net 기반의 여러 PRS들을 일정의 가중치로 혼합하는 metaGRS 방식을 제안하고 평가하였다. ‘사망’과 같은 복합적인 요인을 통해 일어날 수 있는 사건이나 적합한 GWAS 요약 통계 자료가 없는 경우에는 PRS 생성이 불가하기 때문에 유전적 위험을 평가하기가 까다롭다. 본 연구를 통해 심혈관계 사망 예측을 위해 고려된 PRS들 및 제안된 metaGRS에서 관련된 질환의 PRS들이 독립적이고 상호보완적으로 작용하는 것을 확인하였다. 또한, 선별된 유전적 고위험군에서 임상적 조기 탐지 및 집중적인 개입, 그리고 생활 습관의 수정이 유의하게 사망 위험도를 낮출 수 있음을 시사하였다. 세 번째로, 복합 질환 예측을 위한 네트워크 분석 기반의 동반 질환 유전적 위험도 집계 방법을 개발 및 제안하였다. 기존의 유전적 위험도 집계 방식은 단일 질환 GWAS를 기반으로 구성되기에, 하나의 유전자가 두 개 이상의 표현 형질에 영향을 미치는 유전적 요소인 다면발현(pleiotropy)과 같은 현상과 동반질환(comorbidity)이 미치는 유전적 영향력을 포착하는데 어려움이 있었다. 본 연구를 통해, 유전적 관계 및 방향성을 고려하여 질환 간의 유전적 다면발현 및 상승 혹은 길항 작용을 포착할 수 있는 signed DDN (disease-disease network) 방법과 그래프 기반의 준지도 학습과 대규모 전장 표현형 연관성 연구 요약 통계를 활용하여 동반 질환 점수들에 기반한 다중 점수 집계 방법인 netCRS (network-based comorbidity risk score)를 제안하였다. 제안된 방법론들은 기존의 PRS 방법론와 비교하여 우월한 질병 예측 성능을 성취했으며, 또한 PRS와 함께 예측자로 활용했을 때도 상호 보완적으로 작용함을 확인하였다. 마지막으로, 복합 질환 예측을 위한 딥러닝 접근법 기반의 새로운 PRS 방식을 제안했다. 기존의 PRS 접근법은 여러 독립적인 변이들의 영향력을 가중하여 합하는 방식이기 때문에 실제 생물학적으로 연관이 있을 수 있는 유전자들 간의 비선형적인 상호작용이 고려되기 힘들다. 따라서, 본 연구에서는 유전자들 간의 작용 및 역할을 반영할 수 있는 자연어 처리 모델에서 파생된 Transformer module을 활용한 딥러닝 기반의 TransformerPRS 방법론을 제안하였다. 본 학위 연구에서는 수십만 명의 참가자들이 포함된 바이오뱅크 기반의 대규모 유전체, 표현형 자원을 활용하여 PRS가 직면한 다섯 가지 범주의 도전 과제에 대해 평가 및 검증하고, 다각적 접근을 통해 네트워크 이론, 머신러닝, 그리고 딥러닝 방법론을 접목하여 새로운 유전체 구조 모델링 접근법들을 함께 제안하였다. 결론적으로, 이 연구를 통해 다원 유전적 모델링이 실제 유전력과 연구 기반의 추정 유전력 사이의 간극을 줄임과 동시에 임상 적용에 효과적이고 효율적인 예비 인자가 될 수 있음을 검증하였고, 다각적 접근 방법론을 통해 PRS가 나아가야할 방향과 관점을 제시하는 바이다.