학술논문

Breast Cancer Subtype Classification with Sample-specific Network Using Graph Convolutional Network / 그래프 컨볼루셔널 네트워크 기법을 활용한 샘플 특이적 네트워크 기반의 유방암 아형 분류
Document Type
Dissertation/ Thesis
Source
Subject
Breast Cancer Subtype Classification
Sample-specific Network
Graph Convolutional Network
Residual module
Inception module
Neural network
Language
English
Abstract
암 이라고 불리는 악성 종양은 복잡하고 다양한 유전적 이질성을 가지고 있다. 그중 여성에게 잘 발병되는 암 중에 하나인 유방암은 PAM50에 의해 서로 다른 성질을 가진 5개의 아형으로 분류된다. 각각의 아형은 임상적 특징, 질환 경과, 생존률, 유전적 변이 등에 대해 다양성을 보인다. 그러므로 각 환자의 적절한 표적치료를 위해서 암 아형 분류는 매우 중요하다. 본 연구는 다음 2가지 측면에 초점을 맞추어 5가지의 유방암 아형을 보다 효과적으로 잘 분류하는 새로운 방법을 제안한다. 첫째, 각 환자 샘플의 특성을 잘 반영 할 수 있는 샘플 특이적 네트워크를 구축한다. 이때 샘플 특이적 네트워크는 각 환자의 유전자 발현 수준에 대하여 확률적 기법을 적용하여 계산된 유전적 관계성을 나타낸다. 둘째, 구축된 네트워크 정보와 유전자 발현 수준을 모두 학습할 수 있는 최신 기계학습 기법 중 하나인 그래프 컨볼루셔널 네트워크(GCN) 기법을 적용한다. 효율적인 feature들의 정보 추출을 위해 레지듀얼(residual)과 인셉션(inception) 모듈 구조와 함께 그래프 컨볼루셔널 네트워크 기법으로 데이터들을 학습시킨다. 새롭게 재표현된 데이터들은 평면화되어 합쳐진 이후, 여러층의 뉴럴 네트워크(MLP) 구조를 이용한 분류기를 통과하여 올바른 유방암 아형으로 분류된다. 결과적으로, 유전자 발현값이라는 제한된 정보로부터 유전적 관계성을 도출하여 각 환자 샘플의 특징을 보다 폭 넓게 해석하고 학습에 활용한다는 점에서 다른 비교 모델과 비교했을 때, 본 연구의 모델은 유방암 아형을 보다 효과적으로 분류한다.
Cancer, called malignant tumor, has complex and diverse genetic heterogeneity. Breast cancer, one of the most prevalent cancers in women, is classified into five subtypes with different properties depending on PAM50. Each subtype has diversity in clinical characteristics, disease course, survival rate, genetic variation, and so on. Therefore, classification of cancer subtype is very important for proper targeted treatment of each patient. This study provides a new way to better classify the five breast cancer subtypes more effectively, focusing on two aspects: First, a sample-specific network that can well reflect the characteristics of each patient's sample is constructed. The sample-specific network shows the genetic relationships calculated by applying a probabilistic method at the gene expression level of each patient. Second, we apply the Graph Convolutional Network (GCN) method, which is one of the latest machine learning methods that can learn the constructed network information and gene expression values. Learning from graph-convolutional network techniques with inception and residual module, the newly re-represented data is classified into the appropriate breast cancer subtype using a neural network-based classifier. As a result, compared to other comparison models, the model of this paper classifies breast cancer subtypes more effectively in that it derives genetic relationships from the limited information of gene expression values, interprets the features of each patient sample more broadly and utilizes them for learning.