학술논문

南-北方汉族人、韩国人和日本人遗传划分机器学习模型优化方案 / Optimization scheme of machine learning model for genetic division between northern Han, southern Han, Korean and Japanese
Document Type
Academic Journal
Source
遗传 / Hereditas. 44(11):1028-1043
Subject
法医遗传学
祖先信息位点
机器学习
东亚人群
南北方汉族
Language
Chinese
ISSN
0253-9772
Abstract
中国汉族人、韩国人和日本人作为东亚主体人群,其中中国汉族人呈现由北向南的梯度混合,在遗传结构上存在不同程度的差异.为实现对中国南-北方汉族人、韩国人和日本人的高分辨率遗传划分,本研究收集和分析了文献报道和实验室前期数据筛选出的1185个东亚人群祖先信息性SNPs(ancestry informative SNPs,AISNPs),应用softmax与随机森林两种机器学习算法构建族群遗传划分模型,然后利用系统发育树、STRUCTURE和主成分分析方法进一步评估不同模型AISNPs位点组合的族群分类效果,最终筛选出234-AISNP的最优组合,softmax模型准确率为92%,实现了南方汉族人、北方汉族人、韩国人和日本人的高精度区分.本研究测试的两种机器学习算法模型为近距离人群的高分辨率划分提供了重要参考,可作为法医DNA族群推断体系位点开发的重要工具.