PLINK上机练习孙广青sunguangqing@bgitechsolutions.comBGI,Shenzhenplink简介•PLINK是由哈佛大学的ShaunPurcell开发的一个免费,开源的全基因组关联分析软件。•软件下载URL:~purcell/plink/res.shtml测试数据也可在该页面的(Teachingmaterialsandexampledataset)下载1.下载example.zip及teaching.zip到自己电脑的目录下(eg:D:\plink)2.解压文件到当前目录plink中软件安装--Dos•DOS系统下安装及运行•进入命令行界面打开命令行“Win+R”-输入“cmd”回车进入命令界面-再输入“D:”进入D盘-再输入cd空格plink就进入软件目录-输入d:输入目录plink•输入plink--fileextra测试软件是否在当前目录软件安装--Dos1.连接VPN,putty登录集群用户名和密码区分大小写VPN用户名:bgitech-training,密码:HGDaer32putty用户名:stu..密码:..登录集群2.拷贝测试文件到自己目录下命令:cp-r/home/teacher/sungq/*.拷贝完成后用ls命令查看文件夹3.进入plink目录命令:cdplink登录集群•Linux下plink.exe及文件拷贝到当前目录,直接运行软件安装--linux输入格式•以extra数据为例的格式说明extra数据包括两个文件,extra.ped和extra.mapPED格式:文件以空格或者tab分隔,前六列是固定的格式,依次是Familyidindividualid(这列ID标注唯一后,家系和父母id缺失的可以以自然数编码)paternalidmaternalidsex(1男2女性别缺失可以用0或者其他数字表示)phenotype(-9或者0表示缺失,1表示control,2表case)genotype(A/T/C/G,missing0)第七列及以后是基因型PED文件截图,每行表示一个个体注意:目前plink只能做双等位基因型分析,即同一位点不能有第三种基因型输入格式家系ID样本ID父ID母ID性别表型snp1snp2snp3MAP格式:文件以空格或者tab分隔,文件只有4列Chromosome(1-22,x,yor0)rs#orsnpidentifiergeneticdistance(morgan,此列可设为0)base-pairpositionMAP文件截图输入格式•命令说明:--noweb不连接网络--file指定输入文件--ped指定ped文件--map指定MAP文件--make-bed数据转换为二进制格式--out指定输出文件名输入命令输入命令•两个文件前缀名相同命令:plink--noweb--fileextra--outextra两个文件前缀名不同可分别输入命令:plink--noweb--pedextra.ped--mapextra.map--outextra•二进制格式数据量太大,节省时间和存储空将数据转换为二进制格式储存plink--noweb--fileextra--make-bed--outextra输出文件:extra.bed,extra.bim,extra.fam•Log文件说明输入命令给出case/control数目,性别分布最终分析的SNP个数质控去掉的SNP数目•SNPQCSNPcallratecallrate比较低的SNP位点,基因分型出错概率也较高命令行:plink--noweb--fileextra--missing--outextra输出文件:extra.imiss(个体callrate)和plink.lmiss(SNPcallrate)质控及分析--SNP个体callrateSNPcallrateMAFpower不足,分型出错概率也较高命令行:plink--noweb--fileextra--freq--outextra输出文件:extra.frq质控及分析--SNP哈代温伯格平衡(Hardy-WeinbergTest)不存在突变、迁移和自然选择情况下,对于一个大的随机群里,基因频率和基因型频率应保持不变命令行:plink--noweb--fileextra--hardy--outextra输出文件:extra.hwe计算哈温平衡的时候我们一般参考的是control个体的HWE检验结果质控及分析--SNP•SampleQCCallrateGendermatch检测实际性别与基因型推断得到的是否一致命令行:plink--noweb--fileextra--check-sex--outextra输出文件:extra.sexcheck由结果为“PROBLEM“或者“OK“判断性别质控及分析--Sample•用质控后的数据进行亲缘关系检测命令行:plink--noweb--fileextra2--genome--outrelationextra2表示质控后的PED和MAP文件输出:relation.genome质控及分析--SamplePI_HAT列即为亲缘关系双胞胎或者样本重复(Pihat=1.0)一级亲属(Pihat=0.5)二级亲属(Pihat=0.25)•近交系数(Inbreedingcoefficients)检测是否有样本污染或者群里outlier命令行:plink--noweb--fileextra--het--outextra输出文件:extra.het出现负值,并且值越小时,说明观察到的杂合子较多,可能出现样品污染或者异族通婚等质控及分析--Sample关联分析--case/control•样本质控和SNP质控后,进行关联分析命令行:plink--noweb--fileextra2--assoc--outextra2extra2表示质控后的PED和MAP文件输出:extra2.assoc,根据P值列选出候选SNP进行验证•样本质控和SNP质控后,进行家系关联分析命令行:plink--noweb--fileextra2--tdt--outextra2extra2表示质控后的PED和MAP文件输出:extra2.tdt,根据P值列选出候选SNP进行验证关联分析--family•其他检验命令:--trendCochran-Armitage趋势检验--logistic逻辑回归分析--fisherFisher’s精确检验关联分析多重假设检验•每次统计检验都有犯错的概率,对SNP或者基因做关联分析时检验次数很多,累积错误率增大•多重假设检验方法Bonferronicorrection方法:p-value×(numberofSNPs)vs0.05FDR(Falsediscoveryrate)方法:p-value×coefficient(locusnumber/locant)vs0.05命令行:plink--noweb--fileextra2--assoc--adjust--outextra2输出:extra2.adjustPermutationTest方法:swapslabels命令行:plink--noweb--fileextra2--assoc--perm--outextra2permutation次数最大为1000000plink--noweb--fileextra2--assoc--mperm10000--outextra2可自己设定最大permutation的次数输出:extra2.perm多重假设检验总结•各部分检验可以分开做,也可以通过一系列命令叠加实现,eg:1.plink--noweb--fileextra--mind0.1--geno0.1--maf0.01--hwe0.000001--assoc--outextra对位点过滤(callrate=0.9,maf=0.01,P_hwe1e-6),样本过滤callrate=0.9,然后做关联分析--mind和--geno可直接过滤样本和SNP位点数据2.plink--noweb--fileextra--make-bed--mind0.02--outhighgeno提取样本callrate=0.98的个体,并将数据输出为二进制格式•性别缺失命令行:plink--noweb--fileextra--allow-no-sex…使用条件:存在样本性别缺失情况下使用,否则个体分析时将被剔除常用的其他命令常用的其他命令•计算LD命令行:plink--noweb--fileextra--r2--outextra输出:extra.ld限定上下游范围的可以用--ld-window-kb500•单体型分析命令行:plink--noweb--fileextra--hap-window3--hap-assoc--outextra输出:extra.assoc.hap常用的其他命令•Meta-analysis对多个分析结果进行整合命令行:plink--meta-analysisstudy1.assocstudy2.assocstudy3.assoc常用的其他命令练习部分•练习数据:wgas1.ped和wgas1.mapThanks