李曦副教授中南大学湘雅医院临床药理研究所公用数据库基因组表达谱数据挖掘策略及分析方法NatureReviewsGenetics16,85–97(2015)什么是数据挖掘从海量数据中揭示潜在的生物学规律。为什么要学习数据挖掘把握自己的命运最大化利用已有数据寻找新的课题数据挖掘的步骤生物医学研究人员的优势数据处理步骤、统计分析均有工具可以完成数据挖掘表型的确定数据的选择数据挖掘结果的解读生物医学数据挖掘所需技能必备技能:基本的生物信息学知识•各种数据库的使用、数据库信息的解读基本的生物统计学知识•分析方法的选择,分析软件的使用可选技能:R语言的基本操作•R包的使用Linux系统的基本操作•生物信息学分析软件的使用基因组表达谱数据挖掘流程确定研究策略获取表达谱数据处理表达谱数据统计分析验证分析数据挖掘案例分析策略核心思路:影响脑胶质瘤发生发展的基因可能影响脑胶质瘤的预后分析流程:获取包含脑胶质瘤组织和正常脑组织的全基因组表达数据的多个数据集鉴定在脑胶质瘤组织和正常脑组织中差异表达的基因在自己收集的样本中验证这些基因分析这些基因与肿瘤分级以及总生存期之间的关系策略举例影响阿糖胞苷药物敏感性的基因可能影响AML预后。影响铂类药物敏感性的基因可能影响多种肿瘤的预后。在高低肿瘤分级中存在差异的基因可能影响癌症预后。……研究策略如何确定研究策略可以千变万化研究策略决定了论文的上限应根据自身专业选择有意义的研究策略包含基因组表达谱数据的数据库•GeneExpressionOmnibus(GEO)•ArrayExpress•TheCancerGenomeAtlas(TCGA)•InternationalCancerGenomeConsortium数据库关键名词•Profile:数据库整理好的单个基因的概述•Datasets:见GDS和GSE。•GSM:单个样本的实验数据•GDS:数据库整理好的关于某个话题的GSM集合。一个GDS中的所有GSM为同一平台。•GSE:一个实验项目中的多个GSM合集,可能使用多个平台。•GPL:芯片平台,如Affymetrix,Agilent等。Profile示例实验描述实验结果展示Value:归一化的相对表达量Rank:探针表达值在所有表达值中的排名的百分比。Rank越高,表达越高。Datasets示例芯片介绍芯片注释文件样本描述Limma法分析的TOP250结果韦恩图通路分析生存分析验证•Survexpress://kmplot.com/analysis/输入基因名选择分析表型GEO数据本机处理•统计分析+作图软件SPSSGraphadR•Kaplan-Meier法单因素生存分析分类变量做生存曲线图•Cox回归模型单因素或多因素生存分析分类或连续变量计算HR和95%CI生存分析P值HR双击弹出谢谢!肿瘤靶向药物的个体化治疗•数量性状连续变量,如:身高、体重、药物剂量等•质量性状分类变量,如:性别、疗效、等级等•其他类型性状时间依赖性变量,如:生存期,中位生存时间等研究表型•参数检验(符合正态分布时)T检验(独立样本或配对样本):两样本均数比较方差分析:两个以上样本均数比较线性回归分析:多个因素对因变量的影响•非参数检验(不符合正态分布时)Mann-WhitneyU检测:两独立样本Kolmogorov-Smirnov检测:两独立样本McNemar检验:配对样本Kruskal-Wallis检验:多独立样本数量性状常用统计分析方法•卡方检验:单因素对因变量的影响•逻辑回归:多个因素对因变量的影响质量性状常用统计分析方法A:期望值>5且样本量>40,用Pearson卡方。B:1<期望值<5且样本量>40,用连续校正。(仅用于四格表资料)C:期望值<5或样本量≤40,用Fisher精确检验。还有问题解决不了怎么办?加入达人学社QQ群(加群请注明信息:单位+专业+姓名,每人限加一个群)33405037、491043563496353730、496740737496974932、273757394大神帮你解决高难文献群内共享资源资源获取技术教学视频同行分享交流(主要为生物、医学、化学专业)请关注达人学社微信公众号甲骨文技术负责人微信号请注明个人信息:单位、专业、姓名张常昕夏艳东讲座主办单位•达人学社•湖南甲骨文生物医药有限公司