・26•JournalofIlenanIniversity(MedicalScience)2019,38(1)文章编号:1672-7606(2017)01-0026-04应用机器学习方法构建平滑肌肉瘤分子分型预测标签王强,安杨I张国森I,董寰',郭向前旧1.河南大学医学生物信息学研究所细胞信号转导实验室基础医学院.河南开封475004;2.河南大学软件学院,河南开封475004摘要:〔目的〕应用机器学习方法,利用TC(;A数据,构建平滑肌肉瘤分子分型预测标签,〔方法〕收集TC(;A和GSE45510数据.建立机器学习模型,利用pamr包预测标签,将预测亚型与实际值对比以评估预测效果〔结果〕经测试.阈值取6.639时,分类准确率为87.8%,相关基因159个〔结论〕利用机器学习方法构建平滑肌肉瘤分子分型预测标签,可以用于预测平滑肌肉瘤分子亚型,提高诊断精度,指导未来平滑肌肉瘤亚型特异性靶向治疗,推动精准治疗发展.关键词:平滑肌肉瘤;表达谱;机器学习;分子分型;预测标签中图分类号:R730.262文献标志码:ADevelopingleiomyosarcomamolecularsubtypingsignaturethroughmachinelearningmethodWANGQiang1'2,ANYang1,ZHANGGuosen1,DONGHuai?,GUOXiangqian回1.InstituteofBiomedicalInformatics,CellSignalTransductionLaboratory,SchoolofBiisicMedicalSciences.HenanUniversity,Kaifeng475004.China;2.SchoolofSoftware.HenanUniversity.Kaifeng475004,ChinaAbstract:[Oljjcctive]TodevelopleiomyosarcomamolecularsubtypingsignatureusingmachinelearningmethodbasedonTC(;AandGEOdata.〔Methods〕TCGAandGSE4551()datawerecollectedtoestablishmachinelearningmodel.Thepackagepanirwasusedtotrainandbuildthesignatureandcross-validationwasusedtoevaluatethepredictioneffect.[Results]Bytesting,whenthethresholdwassetto6.639.theaccuracyofclassificationwas87.8%andtherelatedgeneswere159.[Conclusion]Fheleiomyosarfornamolecularsubtypingsignaturesystemconstructedbymachine-learningmethodcanhugelyc()ntributetopredictthemolecularsubtypes,improvethediagnosticaccuracyandguidetheproniisingspecifictargetedtherapiesofleiomyosarcoma.Keywords:leiomyosarcoma;expressionprofile;machinelearning;molecularsubtyping:signature平滑肌肉瘤是表现出不同程度平滑肌分化特征的一种恶性肿瘤,占肉瘤发病率的24%n,表现出高转移率和高复发率等特点'目前,平滑肌肉瘤的诊断主要依赖于组织样本病理切片和细胞形态学观察,其治疗也主要依赖于传统治疗手段‘然而,不同的患者对治疗的反应差异较大,其主要原因是平滑肌肉瘤具有高度异质性我们前期研究发现,平滑肌肉瘤具有三个分子亚型,不同分子亚型具有亚型特异性的分子表达模式和预后特征。针对平滑肌肉瘤三个分子亚型中的两个亚型,我们开发出收稿日期:2018-10-17基金项目:河南省高校科技创新人才项目(18HASTIT048);河南省科技攻关计划项目(162102310391.172102210187);河南省教育厅青年骨干教师培育计划项目(20I6GGJS-214);河南省教育厅项目(15A310001);河南大学基金项目(20I5YBZB048,B2015151,H2016012,2015YBZR046)作者简介:王强(1979-),男,讲师.研究方向:医学生物信息学及数据处理.冋通信作者:郭向前(1982-),男.博士,教授.研究方向:肿瘤基因标记物筛选、肿瘤基因靶向性治疗、医学生物信息学等,Email:xqguo@henu.edu.cn2019,38(1)河南大学学报(医学版)•27•T亚型特异性的诊断标记物,并且,针对不同分子亚型,我们提出了亚型特异性的靶向治疗手段。为了进一步提高平滑肌肉瘤分子亚型诊断的准确性和特异性,本研究利用机器学习方法,解析和训练平滑肌肉瘤表达谱,构建平滑肌肉瘤分子分型预测基因标签,用于未来预测和分析平滑肌肉瘤分子亚型,提高诊断精确度,指导未来平滑肌肉瘤亚型特异性靶向治疗。1方法本文利用机器学习训练和预测平滑肌肉瘤分子亚型标签,大致流程分为数据获取、分类器、交叉验证和预测等几个环节,技术流程如图1所示:图1技术流程图1.1数据获取从高通量基因表达数据库(GeneExpressionOmnibus,GEO)和癌症基因组图谱(TheCancerGenomeAtlas,TCGA)数据库下载平滑肌肉瘤表达谱数据,对数据进行归一化后通过同义聚类得到3个分子亚型⑴。以GSE45510数据集为训练集,样本数5=99),选取20000个基因,以TCGA数据集为测试集,样本数(n=82),选取与训练集相同的基因。1.2分类器传统的癌症诊断是基于在光学显微镜下检查染色组织标本的细胞形态,诊断准确性依赖于病理学家的经验。而基因微阵列数据可以为临床医生提供相关参考信息,辅助医生诊断和治疗。但是,基因微阵列数据具有样本数量少但维度高的特点,而传统的机器学习方法主要是针对样本数多但低维数据「因此,如何确定哪些基因对分类相关性最大,将非常重要,可帮助降低噪音,提高预测的准确度和灵敏度。本文采用最邻近收缩质心分类6,该方法将每个类别质心收缩到所有类别的整体质心,即按阈值将质心移动到零,其作用是对同一类别样品中表达稳定的基因赋予更高的权重。这种方法有两个优点:①可以通过降低噪音基因的影响,使分类器更加准确;②可以自动选择基因,如果一个基因对于所有类收缩为零,那么就可以将该基因从类别预测中剔除。1.3交叉验证使用*-折叠交叉验证方法,将样本集合随机分为k个大小相等的部分。对每个部分依次在其他k-1个部分上构建分类器,然后对剩余部分进行测试。该操作针对一系列阈值进行,并且每个阈值都可以得出交叉验证的分类错误率。比如,若k=n,那么交叉验证的步骤如下:①将所有数据集分成n份。②每次无重复地取其中一份做测试集,用其他”-1份做训练集,之后计算该模型在测试集上的MSE,(均方误差)。③将“次的MSE,取平均值得到最后的MSE,公式如下:CV⑷=十£MSE,。2结果2.1数据集的训练为验证上述方法,选择GSE45510数据集为训练集,使用R语言PAM-R包运行来实现,结果如图2和图3所示。Numberofgenes19708815548362636130250415936113211II!1I1I1II厂TIIII1!I」Illi0.8--0.4-$0.0-0246阈值810图2交叉验证误差曲线点线:亚型];虚线:亚型11;实线:亚型ni图3交叉验证样本概率从图2分析得出,阈值在0~6之间bias(偏差)较小,且变化较小,但是基因标签中基因数目较多,在阈值大于8时,所需基因数较少,但是分类错误率较大,因此,需要在6~8之间选取阈值。分析图3可以得出相似结果,点线为亚型I,虚线为亚型II,实线为亚型皿。测试阈值选取6.290、6.639、6.989、7.338、7.688共5个值,其测试结果如表1所示。・28•JournalofIlenanLniversity(M(*(li(alScience)2019,38(1)表1交叉验证测试结果阈值基因数交叉验证错误预测错误6.29023311106.63915912106.98910715197.3387119207.688362525从表1可以得出阈值6.639为最佳值分类准确率为87.8%,如图4所不相关样本如图5所示1.0•-r-~-_:~™—鼻0.850.6龙()40.2Q0■1orairiiinn«*nr»TTrrniirinnn,rumnunn■、,6~10~203040_5060~70样木左:亚型I.错误数量为1;中:亚型II,错误数园:为6;右:亚型Ill,错误数量为3图4收缩类质心2.2GO分析将图5所得159个基因在DAVID基因功能诠释网站(https://david.ncifcrf.gov/)做基因分类(GO,geneontology)分析。从分析可以得出以下几个方面:①基因NOX4、DCLRE1C、PML、RNF168、UIMC1与电离辐射的反应性相关(P=0.01722);②基因POLH、PML、RNF168和UIMC1、DNA修复的调节相关(P=0.01933);③基因MSX1、P()LH、PML、RNF168、UIMC1与DNA损伤刺激反应的调节相关(P=0.02330);④基因NOX4、DCLRE1C、PDE6A、RDH11、POLH、PML、RNF168、UIMC1与对辐射的反应相关(P=0.02485);⑤基因LAMB2、PKD1、GD-NF与后肾单位发育相关(P=0.03061);@基因NUMA1、THRB、PKD1与肺上皮细胞发育相关(P=0.03203);⑦基因NOX4、PDE6A、RDH11、POLH、SERPINB6、PTAFR与细胞对非生物刺激的反应相关(P=0.03711);⑧基因NOX4、POLH、ST8SIA1、PMI.、UIMC1、P1)E6A、DCLREIC、RDH11、SER-PINB6、PKD1、RNF168、PTAFR、EIF2B5与又寸非生物刺激的反应相关(P=0.04906)3讨论本研究得出的159个基因中(图5),可以达到较高的分子分型准确率,其中一些主要基因具有重要的生物学意义例如PTPN14基因编码的蛋白质是PTP家族的成员,属于酪氨酸蛋白磷酸酶的PT-PN14亚家族。研究发现,PTP是调节多种细胞过程的信号分子,包括细胞生长、分化、有丝分裂周期和致癌转化等MSX1在肢体模式形成、颅面发育、牙齿发生和肿瘤生氏抑制中起作用,COL4A2基因编码IV型胶原的6个亚基之一,是基底膜的主要结构成分,该蛋白质的C末端部分称为canstatin,是血管生成和肿瘤生长的抑制剂。已发现CAPNS1高表达,与各种癌症相关,如肝细胞癌和肾癌J,Erl)B3与多种癌症中的靶向治疗抗性相关,包括对以下疾病的抵抗:乳腺癌中的HER2抑制剂w;在肺癌和头颈癌中应用的EGFR抑制剂3。;前列腺癌中的激素;肝细胞癌中的IGF1R抑制剂;黑色素瘤中的BRAF抑制剂,.本研究应用机器学习方法构建出的平滑肌肉瘤分子分型预测标签,这些基因与肿瘤发生发展有着紧密的联系,并且打生物体内多种生物学过程相关,可作为平滑肌肉瘤分子分型的标志物,该方法也适用于其他类型肿瘤分子分型标志物的筛选,对精准治疗的发展具有一定的推动作用,参考文献:;I!GUSTAFASONP.WII丄ENH.BAI.DETORPB.etal.Softtissueleiomyosarcoma:apopulation-basedepidemiologicandprognosticstudyof48piiti