R的简单介绍和线性回归

szyhduj
1 ℃
2020-01-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

目录一、R的介绍1.R的特点2.R的界面3.R的使用注意事项二、R中数据创建1.数据的输入1.1.向量1.1.1向量的赋值1.1.2有序向量的赋值1.2.矩阵的创建1.3.数据框的创建1.3.1表格输入1.3.2数据框的直接输入2.数据读入目录三、统计分析方法简介3.1方差分析和多重比较3.1.1方差分析和多重比较的命令调用3.2假设检验3.2.1假设检验的命令调用3.3主成分和因子分析3.3.1主成分和因子分析的命令调用3.4判别分析及命令3.5聚类分析3.5.1聚类分析函数的命令调用3.6回归分析3.6.1回归分析的详细解释R的介绍R是什么：R是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的RossIhaka和RobertGentleman共同创立，并受到贝尔实验室s语言的影响。R的特点1.免费性：R是一个免费的统计分析软件；2.运算能力强大：同Matlab一样不需要编译就可执行代码；3.帮助功能完善：可通过help命令可随时了解R所提供的各类函数的使用方法或例子；4.R有顶尖水准的制图：在可视化方面，R的效果特别好，并能保存为各种形式的文件；5.统计分析能力尤为突出：R内嵌了许多统计分析函数，一些中间结果既可保存到专门的文件，也可直接用于进一步的分析。6.……..R的界面中文版的R界面从后开始输入数据，代码等R的使用注意事项1.R的命令对大小写敏感，这在使用命令方式安装和载入程序包时应特别注意。2.输入R的命令中尽量使用英文字符，避免使用中文字符。3.同一行中可输入多个命令，需用；隔开，#认为是注释内容，不予执行。4.R中所有的函数后都带圆括号5.赋值一般用-来表示，也可以用assign（）或者=来实现，不过在实际中很少这么用，因为容易。6.在线帮助命令强大，比如查询有关线性回归lm的信息，可通过命令help（”lm”）或者是?lm或者help.search(“lm”)输入数据导入数据在R中按照个人要求的格式来创建含有研究信息的数据，是进行任何数据分析的第一步。在R中一般会有以下两种形式：I.选择一种数据结构来存储数据II.将数据输入或导入到这个数据结构中1.1.1向量的赋值数据的类型有数值型，字符型，逻辑型三种c(…)常见的一系列参量转为向量的函数a-c(1,2,3,4,5)a[1]12345b-c(one,two,three,four,five)b[1]onetwothreefourfive“d-c(TRUE,FALSE)d[1]TRUEFALSE1.1.2有序向量的赋值生成有序的向量可以使用seq命令，s1-seq(-5,5,by=0.5)s1[1]-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.5[15]2.02.53.03.54.04.55.0还有其他的赋值向量的命令不再详细举例。1.2.矩阵创建创建一个矩阵：Mymatix-matrix(data=NA,nrow=1,ncol=1,byrow=FALSE(默认是按列排列),dimnames=NULL)cells-c(1,26,24,68)rnames-c(R1,R2)cnames-c(C1,C2)mymatrixmatrix(cells,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))mymatrixC1C2R1126R224681.3.1表格输入如果要输入以下表格的数据可以使用矩阵，也可用数据框的形式bloodtype-c(zc,lj,yc)jnbq-c(8.9,10.63,19.84)cs-c(12,18.05,30.55)xjt-c(34.71,46.18,73.06)xjgs-c(44,67.24,116.82)patientdata-data.frame(bloodtype,jnbq,cs,xjt,xjgs)patientdatabloodtypejnbqcsxjtxjgs1zc8.9012.0034.7144.002lj10.6318.0546.1867.243yc19.8430.5573.06116.82血压状态冠状动脉机能不全猝死心绞痛心肌梗塞正常8..91234.7144临界10.6318.0546.1867.24异常19.8430.5573.06116.821.3.2数据框的直接输入同样的，可以在R中新建数据框，直接输入数据。命令格式如下：比如创建一个名为mydata的数据框，它含有三个变量，age(数值型)、gender（字符型）、weight（数值型）。命令为：mydata-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))mydata-edit(mydata)2.数据读入R可以读取多种形式的形式。以导入csv，xls，txt为例：mydataframe-read.table(file,header=TRUE,sep=“”,row.names=“names”)如读取在桌面上的3.csv的文件mydataframeread.table(C:/Users/Administrator/Desktop/3.csv,header=TRUE,sep=\t)2.其他读取Excel读取：1.一般可将Excel文件另存为csv格式，再读取。2.也可以使用命令（在32位系统中使用）library(RODBC)channel-odbcConnectExcel(C:/Users/Administrator/Desktop/3.xls)mydataframe-sqlFetch(channel,3)odbcClose(channel)txt读取：mydata-read.table(C:/Users/Administrator/Desktop/1.txt)当然，也可以使用较为简答的命令来获取文件位置：choose.dir()或者file.choose()直接从弹出的对话框中了来查找文件。三、统计分析方法简介统计分析方法：常用的主要方法有：线性回归，方差分析与多重比较，假设检验，主成分和因子分析，判别分析，聚类分析。3.1方差分析方差分析：用于分析分类型自变量与数值型自变量之间的关系，即分析多各总体均值是否相等的方法。具体根据影响因素的不同，可以分为单因素方差分析，双因素方差分析例：某城市从4个排污口取水，进行某种处理后检测大肠杆菌数量，单位面积内菌落数如下表所示，请分析各个排污口的大肠杆菌数量是否有差别。排污口属于分类型自变量，大肠杆菌数量属于数值型因变量。分析的问题是：不同排污口大肠杆菌的数量是否相等。排污口1234大肠杆菌数量9,12,7,520,14,18,1212,7,6,1023,13,16,21方差分析代码X-c(9,12,7,5,20,14,18,12,12,7,6,10,23,13,16,21)A-factor(rep(1:4,each=4))fcfx-data.frame(X,A)fcfxaov.fcfx-aov(X~A,data=fcfx)summary(aov.fcfx)plot(fcfx$X~fcfx$A)pairwise.t.test(X,A,p.adjust.method=holm)TukeyHSD(aov(X~A,fcfx))3.1多重比较多重比较是在方差分析得到否定结论后，为确定是哪些组之间存在差异，两两之间进行的比较分析。假设上述问题经分析得到的结果是四个排污口的大肠杆菌的数量是有差异的。那么具体是哪些排污口数量不同造成的，可进行多重比较。3.1.1方差分析与多重比较命令函数的调用格式：aov.miss-aov(formula,data=Null,projections=FALSE,qr=TRUE,contrast=NULL,…)多重比较的T检验命令pairwise.t.test(x,g,p.adjust.method=p.adjust.methods,poor.sd=TRUE,…)x是影响变量构成的向量，g是分组向量（因子）方差分析的对象数据框是否返回逻辑预测值是否返回QR分解因素对比合并方差调整p值3.2假设检验假设检验是依据样本去推测总体特征。思想：是基于小概率事件在一次试验中不发生的原理。某车间用一台包装机包装精盐,额定标准每袋净重500g,设包装机包装出的盐每袋净重X~N（μ，σ2）某天随机地抽取9袋,称得净重为490,506,508,502,498,511,510,515,512.问该包装机工作是否正常?H0：μ=500H1：μ≠5003.2.1假设检验命令调用z.test-function(x,n,sigma,alpha,u0=0,alternative=“two.sided”)类似的可以调用t.test,chisq.var.test检验3.3主成分和因子分析主成分分析：将多个变量通过线性变换以选出较少个数重要变量，而又尽可能多的保留原始样本的信息。因子分析：用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子，以较少的几个因子反映原资料的大部分信息。3.3.1主成分分析随机抽取30名某年级中学生,测量其身高(X1),体重(X2),胸围(X3),坐高(X4),数据如下表所示,试对这30名学生身体四项指标作主成分分析。序号X1X2X3X4序号X1X2X3X4114841727821393471763160497786414936677951594580866142316676715343768381504377799151427780101393168741114029647412161477884…………通过对以上四项指标做主成分分析，可以构造由四个指标的线性组合组成的主成分，来解释数据。本例中经过主成分分析中可构造出一个反应学生魁梧成度的主成分y1和反应学生胖瘦的主成分y2。主成分分析代码x-read.csv(student.csv)student.pr-princomp(x[,-1],cor=TRUE)summary(student.pr,loadings=TRUE)#主成分得分predict(student.pr)#主成分的碎石图screeplot(student.pr,type=lines)你的电脑没有这个数据，可以拿其他数据做测试3.3.1主成分分析的代码调用三种格式调用：格式一：princomp（formula,data=NULL,subset,na.action,…)格式二：princomp（x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow))formula是没有响应变量的公式；x是用于主成分分析的数据；cor是逻辑变量，当cor=TRUE表示用样本的相关阵R作主成分分析。3.3.2因子分析：从现有变量综合出少量的变量来解释信息例：现有100名学生六门课（数学、物理、化学、语文、历史、英语）的成绩如下表。目前的问题是：数据中的6个变量能否用一两个综合变量来表示呢？怎么解释它们呢？最终，经过因子分析，得到：Math=-0.355f1+0.793f2Phys=-0.201f1+0.713f2Chem=-0.216f1+0.689f2Literat=0.850f1-0.376f2History=0.854f1-0..235f2English=0.872f1-0.242f2第一个因子f1主要和语文、历史、英语三科有很强的正相关性，而第二个因子主要和数学、物理、化学三科有很强的正相关系数，因此可以给第一个因子f1起名为“文科因子”，给第二个因子f2起名为“理科因子”学生代码数学物理化学语文历史英语165617284817927777766470