R语言笔记常用函数统计分析数据类型数据操作帮助安装程序包R绘图

5740970
1 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

R语言学习笔记常用函数1、聚类常用的包：fpc，cluster，pvclust，mclust基于划分的方法:kmeans,pam,pamk,clara基于层次的方法:hclust,pvclust,agnes,diana基于模型的方法:mclust基于密度的方法:dbscan基于画图的方法:plotcluster,plot.hclust基于验证的方法:cluster.stats2、分类常用的包rpart，party，randomForest，rpartOrdinal，tree，marginTree，maptree，survival决策树:rpart,ctree随机森林:cforest,randomForest回归,Logistic回归,Poisson回归:glm,predict,residuals生存分析:survfit,survdiff,coxph3、关联规则与频繁项集常用的包arules：支持挖掘频繁项集，最大频繁项集，频繁闭项目集和关联规则DRM：回归和分类数据的重复关联模型APRIORI算法，广度RST算法：apriori,drmECLAT算法：采用等价类，RST深度搜索和集合的交集：eclat4、序列模式常用的包：arulesSequencesSPADE算法：cSPADE5、时间序列常用的包：timsac时间序列构建函数：ts成分分解:decomp,decompose,stl,tsr6、统计常用的包：BaseR,nlme方差分析:aov,anova密度分析:density假设检验:t.test,prop.test,anova,aov线性混合模型：lme主成分分析和因子分析：princomp7、图表条形图:barplot饼图:pie散点图:dotchart直方图:hist密度图:densityplot蜡烛图,箱形图boxplotQQ(quantile-quantile)图:qqnorm,qqplot,qqlineBi-variateplot:coplot树:rpartParallelcoordinates:parallel,paracoor,parcoord热图,contour:contour,filled.contour其他图:stripplot,sunflowerplot,interaction.plot,matplot,fourfoldplot,assocplot,mosaicplot保存的图表格式:pdf,postscript,win.metafile,jpeg,bmp,png8、数据操作缺失值：na.omit变量标准化：scale变量转置：t抽样：sample堆栈：stack,unstack其他：aggregate,merge,reshape9、与数据挖掘软件Weka做接口RWeka:通过这个接口，可以在R中使用Weka的所有算法。安装程序包1用函数install.packages()2安装本地zip包路径：Packagesinstallpackagesfromlocalfiles查看安装的包installed.packages()检查更新old.packages()更新update.packages()帮助查看帮助文档?install.package()help(“install.package”)函数帮助?functionhelp(‘function’)html帮助Help.start()帮助Html帮助关键词搜索RSiteSearch(‘word’)数据类型向量创建向量c(),创建向量length(),向量长度删除向量vector[-n]，即删除第n个向量mode(),向量类型rbind(),向量元素都作为一行rowcbind()，向量元素都作为一列col*创建向量序列seq(from,to,by=((to-from)/(length.out-1)),length...),length是总长度（个数），因此by就是间隔rep(mode,time)产生mode重复time次的向量letters[n:m]产生字符向量rnorm(n,mean=…,sd=…)随机序列取子集值范围限制如：V(xm|xn)索引坐标限制如：V[c()]，V[1:3]创建向量空间V=vector()创建向量空间后就可以对向量元素进行赋值常用计算函数mean(x),sum(x),min(x),max(x),var(x),方差sd(x),标准差cov(x),协方差cor(x),相关度prod(x)，所有值相乘的积which(x的表达式)，which.min(x)，which.max(x)rev(x)，反转sort(x)，排序因子因子是用水平来表示所有可能取的值创建（转换）因子factor(v,level=vl)level不指定则默认v中所有值gl(k,n)k是因子的水平个数，n是每个水平重复的个数因子统计nlevels(factor)查看因子水平table(factor)频数prop.table(factor)概率交叉统计对于两个向量进行统计会构成一张交叉的表table(factor1,,factor2)向量命名names(v)=c(“area1”,”area2”,…)，命名后就可以按名称取值了，v[“area1”]矩阵创建矩阵1.matrix(v,nrow=1,ncol=1,byrow=FALSE)，一列（不是行）一列的分配，当数据不够时候就会重复.函数matrix()用来定义最常用的一种数组：二维数组，即矩阵。其完全格式为matrix(data=NA,nrow=1,ncol=1,byrow=FALSE,dimnames=NULL)其中第一自变量data为数组的数据向量（缺省值为缺失值NA），nrow为行数，ncol为列数，byrow表示数据填入矩阵时按行次序还是列次序，一定注意缺省情况下按列次序，这与我们写矩阵的习惯是不同的。dimnames缺省是空值，否则是一个长度为2的列表，列表第一个成员是长度与行数相等的字符型向量，表示每行的标签，列表第二个成员是长度与列数相同的字符型向量，表示每列的标签。2.dim(x)=valuevalue是一个向量，指定行数列数，分配方式与上面一样3.另外就是通过rbind()绑定多个向量行列命名colnames(matrix)=c(“”,””,…)rownames(matrix)=c(“”,””,…)矩阵运算矩阵相乘：A%*%Bt(matrix)，矩阵转置diag(matrix)，矩阵的对角（向量）；diag(diag(matrix))，对角矩阵solve(matrix)，矩阵求逆eigen(matrix)，特征值和特征向量svd(matrix)，奇异值分解，返回X包含属性U、d、V工作空间对象ls()列举所有对象rm()删除对象数据框创建数据框data.frame(x1,x2,…)或带上列的名称data.frame(x1.name=x1,x2.name=x2,…)在创建数据框的时候，字符串的列会自动的转换成因子，以方便统计数据框取值data[x,y]（取单个值）data[x]（取第x列的数据组成的数据框）data[x,]（取第x行的数据）data[,y]（取第y列的数据）data[a:b,y]（取a-b行的第y列的数据）data[c(“colName1”,”colName1”,””,…)]，根据列名进行访问注意：data[x]与data[,y]的不同，data[,y]取值后返回的是一个一维向量限定取值可以通过限制列的范围来取子集，但此时同时一定要指定取哪些列，如data[data$colk,c(“col1”,”col2”,…)]，用attach(data)可以简化这一步操作，即在attach之后可以直接访问列（所有），data[data$colk]，用detach可以解除。另一种控制条件查询的方式即通过subset函数取子集Subset(data,colNamek)，此时colName是数据框的一个列属性筛选which()函数进行筛选，which中是筛选条件，如：is.na()…编辑数据edit(data)查看数据框属性查看数据维度：dim(data)返回：行，列单独查看行数列数：nrow(data)、ncol(data)查看列名：names(data)，同时修改列名：names(data)=c(“”,””,…)查看数据结构：str(data)查看属性（列名$names、类$class、列$row.names），attributes(data)添加一列data$addCol=c(“”,””,…)，添加列的元素应与原来的行数相等merge(dataframeA,dataframeB,by=c(“”,””,…))，横向合并（添加多列）数据操作数据处理变量重命名，调用fix(data)，出现一个交互式工具；或者rename(dataframe,c(oldname=”newname,…”))类型转换：is.datatype()判断，as.datatype()转换字符串处理：nchar()，计算字符数量substr(x,start,stop)grep(pattern,v)，返回向量坐标sub(pattern,replacement,x)，替换strsplit(x,split)分割paste(x,c(),sep=””)，在x后面（向量个数）连接c()向量，以sep分隔cat(“str1”,”str2”,…)，连接字符串toupper()tolower()读取文件数据data=read.table(”位置”,header=T)读取文本文件data=read.csv(”位置”,header=T)读取csv文件在数据导入R语言后，会以数据框(dataframe)的形式储存。dataframe是一种R的数据格式，可以将它想象成类似统计表格，每一行都代表一个样本点，而每一列则代表了样本的不同属性或特征。初学者需要掌握的基本操作方法就是dataframe的编辑、抽取和运算。数据库操作1、配置数据元安装connector配置数据源（控制面板管理工具数据源）2、连接数据库odbcConnect(data_src,uid=,pwd=)3、查询这个是一个通用类型的操作，即可以查询，又可以添加删除修改sqlQuery(channel,sql)4、更新数据库表，并读取数据（问题暂未解决）sqlSave(channel,mydata,'NEW_TABLE_NAME',append=TRUE)表若不存在则新建，默认以数据框命名。mydata数据框：data.frame()函数建立描述统计统计函数mean()Median()var()mad()，绝对中位差quantile(x,probs)，求分位数range()，值域sum()diff(v,lag=n)，滞后差分min()max()scale()，按列标准化概率函数分布函数Beta分布beta()柯西分布cauchy()卡方分布chisq()t分布t()F分布f()Logistic分布logis()均匀分布unif()正态分布函数rnorm()对数正态分布lnorm()多项分布mutinom()泊松分布函数pois()指数分布函数exp()Gamma分布函数gamma()均匀分布函数unif()二项分布函数binom()几何分布函数geom()将这些分布函数加上第一个字母：d=密度函数p=分布函数q=分位数函数r=生成随机数统计与整合（分组）summary()描述统计是一种从大量数据中压缩提取信息的工具，最常用的就是summary命令，运行summary(data)得到结果如下：对于数值变量计算了五个分位点和均值，对于分类变量则计算了频数（显示最高的前五个）aggregate(x,by,FUN,...,simplify=TRUE)对数据