多发性骨髓瘤病人预后相关lncRNA研究AbstractBackgournd:lncRNA在肿瘤的发生发展的过程往往扮演着十分重要的作用,表明很多的lncRNA可能作为诊断或者判定肿瘤的潜在的标志物。然而,利用lncRNA表达评价多发性骨髓瘤病人的预后情况的研究并不多见。Materialsandmethods:我们从GEO数据库中获取了大规模的基因表达谱芯片的数据(包括GSE24080和GSE57317),我们从GSE24080数据集中注释得到相关lncRNA,然后找出于病人生存情况相关的lncRNA,利用这些lncRNA的表达量预测病人的预后,并且独立的数据集(GSE57317)中进行验证。并且我们进行了GSEA分析,找出lncRNA可能通过哪种生物学通路影响病人的预后。Results:对基因芯片进行lncRNA注释后,我们共得到2096个lncRNA,对这些lncRNA进行UnivariableCoxregression分析后,我们发现共有176个lncRNA的表达与病人生存显著相关(p0.05)。通过这176个lncRNA的表达量对病人进行聚类分析后,我们发现聚类得到的两组病人生存率存在显著的差异,独立的数据集(GSE57317)中进行验证也得到了同样的结果。Stratifiedanalysis表示该预测模型是独立于其他临床表型的,如serumbeta2-microglobulin(Sβ2M),serumalbumin(ALB)和lactatedehydrogenase(LDH)浓度的。GSEA分析表明细胞周期、细胞周期过程中检验点的改变、细胞与细胞间的粘附都发生了显著性的改变,lncRNA可能是通过促进细胞增殖,抑制细胞粘附等表型促进了多发性骨髓瘤的进展。Conclusions:我们结果证明很多lncRNA可以作为评判多发性骨髓瘤病人预后的生物标志物。这样标志物可能对多发性骨髓瘤的发生发展具有重要的作用,其分子机制还需要更多的实验数据的证实。Keywords:lncRNA,基因芯片,多发性骨髓瘤,生存率,GSEA1Introduction多发性骨髓瘤是由骨髓中单克隆血浆细胞异常积累引起的一种难以治愈的癌症[1]。多发性骨髓瘤是一种常见的肿瘤,其具有抑制性高、病理特征多等特点,发性骨髓瘤常常导致很差的预后。多发性骨髓瘤患者的存活时间为几周到10年不等,五年生存率仅为40%作用[2]。鉴定高风险的多发性骨髓瘤病人可以针对性的进行个性化治疗,这有利于改善病人的预后,提高病人的存活时间。长链非编码RNA(longnon-codingRNA,lncRNA)是一类长度超过200nt的RNA分子,不编码蛋白或者只编码很短的多肽,起初被认为是垃圾序列,不具有生物学功能。但随着研究的不断深入,科学家发现,占基因组98%的这些非编码RNA分子,通过与DNA、RNA、蛋白质的相互作用,参与细胞的增殖、代谢、运动、自噬及凋亡等诸多生理过程,在基因表达调控网络中扮演着十分重要的角色,lncRNA参与基因组印记以及染色质修饰,转录激活,转录后调控,蛋白功能调节等多种重要的信号转导调控过程[3]。lncRNA的表达失调会引起基因表达异常,从而导致疾病的发生[4]。lncRNA可以为判断多种类型肿瘤的预后提供很多有用的信息[5-6]。利用表达谱数据判断病人的预后已经被应用于多种类型的肿瘤,例如:乳腺癌[7]、结直肠癌[8]、前列腺癌[9]以及非霍奇金淋巴瘤等[10]。然而,将表达谱数据用于临床中还碰到了很多问题,包括过度拟合,缺乏验证,患者间组织的异质性,瘤内异质性,忽视现在临床变量等。在现有的研究中,大规模整合多发性骨髓瘤表达谱数据和临床信息的研究并不多见,我们发现了与多发性骨髓瘤病人生存相关的lncRNA,并且利用这些l生存相关的lncRNA用于预测病人的生存情况,可能具有一定的指导临床评价的作用。2Materialsandmethods2.1多发性骨髓瘤病人GEO数据集以及相应临床信息我们从基因表达综合数据库(GEO)中获取了大量多发性骨髓瘤病人的表达谱芯片数据,并且根据相应的注释文件,获取其相关的临床资料。包括:GSE24080[11](AffymetrixHGU133_Plus_2.0array)(=GSE24080)数据集中558例多发性骨髓瘤病人,GSE57317[12](AffymetrixHG-U133_Plus_2.0array)(=GSE57317)数据集中55例多发性骨髓瘤病人。详细的多发性骨髓瘤病人的病理资料见Supplementtable1。2.2芯片数据处理和lncRNA注释我们使用了RMA[13]算法标准化处理了芯片数据,并对标准化的芯片数据进行Z-score[14]处理。我们使GATExplorer[13]工具对AffymetrixHG-U133_Plus_2.0芯片的探针进行lncRNA注释。GATExplorer提供了一系列系列用于注释芯片的R包,我们利用Bioconductor提供的affy包,可以获得来源与GATExplorer的注释信息。我们从GATExplorer中下载了芯片中比对到非编码区域的ncRNA的CDF文件。通过ncrnamapperhgu133plus2cdf_3.0文件,我们获得了lncRNA的表达谱数据。对于比对到多个lncRNA的探针,我们采取了合并取平均值的方法进行处理。寻找与多发性骨髓瘤病人生存率相关的lncRNA我们使用单因素Cox回归分析评价lncRNA表达量与病人生存时间的相关性。我们保留了p0.05的lncRNA来预测多发性骨髓瘤病人的生存情况。利用lncRNA表达量进行K-means聚类将多发性骨髓瘤病人区分为2组,进行Kaplan-Meier分析。2.3统计分析我们使用Kaplan-Meier生存曲线来评价K-means聚类将多发性骨髓瘤病人区分为2组时,这两组病人的生存情况的差异。我们采取双尾log-rank检验来评价生存曲线是否具有统计学差异。所有的分析都是使用R语言(3.2.3版本)以及Bioconductor完成的。2.4GSEA分析我们使用Broadinstitute所开发的GSEA的JAVA程序进行()基因组富集分析(GSEA),我们使用MSigDB中提供的基因集作为参照。我们认为当假阳性率(FDR)0.05,1000次置换检验的p值小于0.05时,该通路在该种类型的样本中发生量显著改变。我们使用Cytoscape和EnrichmentMap对GSEA的分析结果进行可视化。3.Results鉴定生存相关的lncRNA为了找到与多发性骨髓瘤病人生存率显著相关的lncRNA。针对GSE24080数据集中的558例多发性骨髓瘤病人,我们使用单因素Cox风险比例模型来评价lncRNA表达量与病人生存时间的相关性。共有176个lncRNA的表达量与病人的生存情况显著相关(p0.05),如Fig1所示。在这176个lncRNA中,表达量与病人生存情况呈正相关的有89个,与病人生存情况呈负相关的有87个。Table1为与影响病人生存情况最显著的20个lncRNA(按照z-score排序)。所有与多发性骨髓瘤病人生存率显著相关的lncRNA见Supplementtable2Fig1.绿色点表示表达量与病人生存情况呈负相关的lncRNA(87个),红色点表示表达量与病人生存情况呈正相关的lncRNA(84个),黑色点表示表达量与病人生存情况不相关的lncRNA(1920个)。(筛选阈值为:p0.05,|z-score|1.8)Table1与多发性骨髓瘤病人生存情况显著相关的lncRNA(Top20)GenesymbolchromosomeStartpositionEndpositioncoefz-scoreHazardratiopvalueRP1-286D6.1136893523692546-0.340-4.3630.7120AC008875.254298550342993435-0.296-3.9350.7440MTMR9L13269725932707282-0.341-3.5640.7110AC069360.2111087980610900823-0.280-3.4900.7560.002AL512791.1149084986890854251-0.248-3.3870.7800AP001048.1214488518944887178-0.228-3.2700.7960AC096579.228906532489106126-0.226-3.1630.7980.001RP11-445H22.2204328509243324737-0.213-3.1450.8080.001CYorf14Y2103438721239302-0.244-3.0820.7830.001U62317.2225096883850970543-0.250-3.0630.7790.001GNASAS2057393974574259580.2533.3101.2870RP11-305M3.271291423201291527590.2963.3571.3450.001AC012170.11550655998506604760.2573.3851.2930AC105388.1490166086901723450.3313.4611.3920AC005682.5722897143228981610.3073.4851.3600AC004687.21756402811564310770.2923.6311.3390AC138645.21744620700446227970.2813.8151.3240AL138795.211501908611501928820.3423.8271.4080AC022087.21550647664506505010.3073.8781.3590AL591493.111498160661498205910.3244.0061.3820利用获得的lncRNA预测病人生存情况我们利用所获得的与病人预后相关的lncRNA的表达量,对来源于GSE24080的559例多发性骨髓瘤病人进行聚类分析,我们发现利用这些176个lncRNA的表达量,我们可以将558例病人分为预后良好和预后较差的两组(Fig.2A)。Kaplan-Meier分析表明,利用K-means聚类将多发性骨髓瘤病人区分为2组时,这两组病人的总体生存率有显著性的差异(log-ranktestp=0.0002,Fig.2B)。预后良好的病人的平均存活时间(平均存活时间:87.43月)显著高于预后较差的病人(平均存活时间:64.56月)。手术切除的多发性骨髓瘤病人也呈现出同样的结果(log-ranktestp0.0001,Fig.2C)。Fig2.GSE20480数据集中,利用lncRNA表达量预测多发性骨髓瘤病人的总体生存情况。A.利用176个lncRNA的表达量对558个多发性骨髓瘤病人进行k-means(k=2)聚类分析得到的结果,可以将558人分为预后较好与预后较差的两组(n分别为274和284)。B.k-means(k=2)时,558例多发性骨髓瘤病人被分成两组时,其总体的Kaplan-Meier曲线情况。P值是采取双尾log-rank检验方法计算得到的。B.k-means(k=2)时,558例多发性骨髓瘤病人被分成两组时,其病灶手术切除后的Kaplan-Meier曲线情况。P值是采取双尾log-rank检验方法计算得到的。利用lncRNA表达量预测独立数据中病人的生存情况为了进一步确认使用生存相关的lncRNA表达量预测病人生存情况的能力,我们利用lncRNA