生物信息绘图基础吴红龙wuhonglong@genomics.cn绘图的主要目的绘图常用工具和图表格式数据类型以及图示介绍Excel,SVG绘图,R绘图等软件的使用绘图的主要目的•表达数据特征–实验数据中蕴含着各种显著或潜在的规律和特征。生物信息领域中的海量离散数据尤其如此,并且这些规律或特征通常被淹没在随机信号和实验误差之中。特征分布图可以形象化的展现数据中的抽象规律及特征。(正态分布、双峰分布….)•表示数据关系–数据之间存在着各种直接或间接的联系,例如包含、延伸、对照、线性等等关系。生物信息领域中,我们通常用连接关系图和线性关系图来表示数据元素间的这种关系的细节。(进化树、蛋白代谢途径、染色体上基因排布…..)常用的绘图工具1.Excel2.SVG3.R,Gnuplot,Matlab4.IllustratorCS4,Photoshop,Origin,Tecplot…常见的图片形式1.散点图,柱形图,饼图2.Venn图,圆环图3.构造图、示意图、图解、框图、流程图、记录图、布置图、地图、照片、图版4.热图,曲面图,曲线图、火山图…插图和表格是科技论文撰稿中常用的重要辅助手段。图表使用得当,设计合理,不仅可以使论文论述清楚、明白,还可以起到活跃、美化、节省版面,提高读者阅读兴趣的效果。图应具有“自明性”。图表常见Table格式科学文章中的表格:需采用三线表的格式(必要时可加辅线),表格中的字体采用Arial,所有的内容要居中,如果有必要对内容进行排序。表头标注一定要简明扼要,字体采用黑体。绘图基本要求常见图表要求1.长宽比例合适(3:2或者4:3)2.图片颜色格式(RGBorCMYK)3.字体类型以及大小(Arial)4.图例标注5.图表格式(根据表达的意思进行调整)6.存储格式(一般在没有特殊要求的条件下为pdf)7.图片的四周不要留有过多的空白数据类型及图示条形图及柱形图•用宽度相同的条形的高度或长短来表示各类别数据的图形•有单式条形图、复式条形图等形式•主要用于反映分类数据的频数分布•绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图环形图•环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示•环形图与圆形图类似,但又有区别:–圆形图只能显示一个总体各部分所占的比例–环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环连接关系图KEGGPathwayiPathPointtoPointExcelExcel是微软公司出品的Office系列办公软件中的一个组件,可以用来制作电子表格、完成许多复杂的数据运算,进行数据的分析并且具有强大的制作图表的功能。OpenOffice下的Calc具有类似功能,可以作为Excel的替代品Excel作图Excel图表:1.饼图2.柱形图3.折线图4.条形图5.XY散点图……饼图(pieChart)•也叫圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形•主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用•绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占360°的相应比例确定的柱状图•YH与NA18507基因组结构性变异(structurevariations)长度分布图•首先对原始数据进行处理,按不同档计算出每个档下SV的个数。曲线图曲线图是用平滑的曲线将各数据点连接起来而组成的图形,以曲线方式显示数据的变化趋势。曲线图可以显示随参量(根据常用比例设置)而变化的连续数据。SVG绘图•SVG----ScalableVectorGraphics•一种开放标准的矢量图形语言,代码来描绘图像,可以用任何文字处理工具打开SVG图像,通过改变部分代码来使图像具有互交功能,并可以随时插入到HTML中通过浏览器来观看,可以任意放大图形显示.••(SVG中国)•(SVG参考手册)Excel的图形总体看来只有三种,第一种是表现绝对数值大小,如条形图,柱形图,折线图等;第二种是表现比例,如饼图;第三种则是表现二维平面上的变量关系,如X-Y散点图.://学习资料1.手册:《RforBeginners》3.《统计建模与R软件》4.统计图形与数据可视化://bm2.genes.nig.ac.jp/RGM2/index.php?clear=all6.R语言与统计分析-汤银才7.常用R程序包base-R基础功能包stats-R统计学包nlme-线性及非线性混合效应模型Graphics-绘图lattice-栅格图ape-系统发育与进化分析apTreeshape-进化树分析seqinr-DNA序列分析ade4-利用欧几里得方法进行生态学数据分析cluster-聚类分析ecodist-生态学数据相异性分析mefa-生态学和生物地理学多元数据处理mgcv-广义加性模型相关mvpart-多变量分解nlme-线性及非线性混合效应模型ouch-系统发育比较BiodiversityR-基于Rcmdr的生物多样性数据分析vegan-植物与植物群落的排序,生物多样性计算maptools-空间对象的读取和处理sp-空间数据处理spatstat-空间点格局分析,模型拟合与检验splancs-空间与时空点格局分析picante-群落系统发育多样性分析Rpackages安装与调用Install.packages(“package”)Library(package)部分函数计算log(x)log10(x)exp(x)sin(x)cos(x)tan(x)asin(x)acos(x)min(x)max(x)range(x)length(x)统计检验mean(x)sd(x)var(x)median(x)quantile(x,p)cor(x,y)t.test()lm(y~x)wilcox.test()kruskal.test()统计检验lm(y~f+x)lm(y~x1+x2+x3)bartlett.testbinom.testfisher.testchisq.testglm(y~x1+x2+x3,binomial)friedman.test...工作空间ls()列出工作空间中的对象rm()删除工作空间中的对象rm(list=ls())删除空间中所有对象save.image()保存工作镜像sink()将运行结果保存到指定文件中getwd()显示当前工作文件夹setwd()设定工作文件夹低水平绘图函数lines()添加线curve()添加曲线abline()添加给定斜率的线points()添加点segments()折线arrows()箭头axis()坐标轴box()外框title()标题text()文字mtext()图边文字……高水平绘图函数plot()绘制散点图等多种图形hist()直方图boxplot()箱线图stripchart()点图barplot()条形图dotplot()点图piechart()饼图interaction.plot()matplot()……绘图参数参数用在函数内部,在没有设定值时使用默认值。font=字体lty=线类型lwd=线宽度pch=点的类型xlab=横坐标ylab=纵坐标xlim=横坐标范围ylim=纵坐标范围log=是否取log坐标读取文件存储文件1,?Eg:?plot2,example()Eg:example(plot)Tips最常用函数1,par()eg:par(font.lab=1,font.axis=1,cex.lab=1.5,cex.axis=1.5,mar=c(5.1,3.2,1,0.5))2,read.table()eg:a-read.table(“*.txt”)3,plot()eg:plot(V2~V1,data=a,ylab=“MeanMehtylation”,xlab=“”,xaxt=“n”,type=“p”,pch=20,col=“red”,cex=0.5);axis();4,pdf()eg:pdf(“out”,height=6,width=8)1.散点图2.盒形图GnuplotGNUPLOT是在1986年由Colinkelley和ThomasWilliams所发展的绘图公用程式,可将数学函数或数值资料以平面或立体的图形画在不同种类终端机或绘图输出装置上.IBM::是一种由美国MathWorks公司出品的商业数学软件,是一种数值计算环境和编程语言,主要包括MATLAB和Simulink两大部分。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。……MATLABMatlab作图1.二维图形a.曲线图(PLOT)b.符号函数画图(ezplot),fplotc.对数坐标图loglog(Y)表示x、y坐标都是对数坐标系semilogx(Y)表示x坐标轴是对数坐标系semilogy(…)表示y坐标轴是对数坐标系plotyy有两个y坐标轴,一个在左边,一个在右边2.三维图形a.曲线b.曲面-1-0.500.51-1-0.500.51010203040-4-2024-4-2024-10-50510特殊的图形0.10.20.30.40.53021060240902701203001503301800Polarplotofsin(2*theta).*cos(2*theta)210.8210.9211211.1211.2211.3211.4211.5211.6211.7211.8-48.45-48.4-48.35-48.3-48.25-48.2-48.15-48.1-48.05-48-47.95-2-1.5-1-0.500.511.52-2-1.5-1-0.500.511.522.53-0.4-0.3-0.3-0.2-0.2-0.2-0.1-0.1-0.1-0.10000.10.10.10.10.20.20.20.30.30.4平面等值线图散点图极坐标图-202-202-10-50510x-axisy-axisz-axiscontour3ofpeaks-202-3-2-10123x-axisy-axiscontourofpeaks空间等值线图-1-0.500.51-1-0.500.51-101三维散点图SoftwareofDatavisualizationWEBLOGOCIRCOSSTRUCTURECytoscapeiPathClusterWEBLOGO:://mkweb.bcgsc.ca/circos/STRUCTURE::