R语言笔记常用函数统计分析数据类型数据操作帮助安装程序包R绘图

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

R语言学习笔记常用函数1、聚类常用的包:fpc,cluster,pvclust,mclust基于划分的方法:kmeans,pam,pamk,clara基于层次的方法:hclust,pvclust,agnes,diana基于模型的方法:mclust基于密度的方法:dbscan基于画图的方法:plotcluster,plot.hclust基于验证的方法:cluster.stats2、分类常用的包rpart,party,randomForest,rpartOrdinal,tree,marginTree,maptree,survival决策树:rpart,ctree随机森林:cforest,randomForest回归,Logistic回归,Poisson回归:glm,predict,residuals生存分析:survfit,survdiff,coxph3、关联规则与频繁项集常用的包arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则DRM:回归和分类数据的重复关联模型APRIORI算法,广度RST算法:apriori,drmECLAT算法:采用等价类,RST深度搜索和集合的交集:eclat4、序列模式常用的包:arulesSequencesSPADE算法:cSPADE5、时间序列常用的包:timsac时间序列构建函数:ts成分分解:decomp,decompose,stl,tsr6、统计常用的包:BaseR,nlme方差分析:aov,anova密度分析:density假设检验:t.test,prop.test,anova,aov线性混合模型:lme主成分分析和因子分析:princomp7、图表条形图:barplot饼图:pie散点图:dotchart直方图:hist密度图:densityplot蜡烛图,箱形图boxplotQQ(quantile-quantile)图:qqnorm,qqplot,qqlineBi-variateplot:coplot树:rpartParallelcoordinates:parallel,paracoor,parcoord热图,contour:contour,filled.contour其他图:stripplot,sunflowerplot,interaction.plot,matplot,fourfoldplot,assocplot,mosaicplot保存的图表格式:pdf,postscript,win.metafile,jpeg,bmp,png8、数据操作缺失值:na.omit变量标准化:scale变量转置:t抽样:sample堆栈:stack,unstack其他:aggregate,merge,reshape9、与数据挖掘软件Weka做接口RWeka:通过这个接口,可以在R中使用Weka的所有算法。安装程序包1用函数install.packages()2安装本地zip包路径:Packagesinstallpackagesfromlocalfiles查看安装的包installed.packages()检查更新old.packages()更新update.packages()帮助查看帮助文档?install.package()help(“install.package”)函数帮助?functionhelp(‘function’)html帮助Help.start()帮助Html帮助关键词搜索RSiteSearch(‘word’)数据类型向量创建向量c(),创建向量length(),向量长度删除向量vector[-n],即删除第n个向量mode(),向量类型rbind(),向量元素都作为一行rowcbind(),向量元素都作为一列col*创建向量序列seq(from,to,by=((to-from)/(length.out-1)),length...),length是总长度(个数),因此by就是间隔rep(mode,time)产生mode重复time次的向量letters[n:m]产生字符向量rnorm(n,mean=…,sd=…)随机序列取子集值范围限制如:V(xm|xn)索引坐标限制如:V[c()],V[1:3]创建向量空间V=vector()创建向量空间后就可以对向量元素进行赋值常用计算函数mean(x),sum(x),min(x),max(x),var(x),方差sd(x),标准差cov(x),协方差cor(x),相关度prod(x),所有值相乘的积which(x的表达式),which.min(x),which.max(x)rev(x),反转sort(x),排序因子因子是用水平来表示所有可能取的值创建(转换)因子factor(v,level=vl)level不指定则默认v中所有值gl(k,n)k是因子的水平个数,n是每个水平重复的个数因子统计nlevels(factor)查看因子水平table(factor)频数prop.table(factor)概率交叉统计对于两个向量进行统计会构成一张交叉的表table(factor1,,factor2)向量命名names(v)=c(“area1”,”area2”,…),命名后就可以按名称取值了,v[“area1”]矩阵创建矩阵1.matrix(v,nrow=1,ncol=1,byrow=FALSE),一列(不是行)一列的分配,当数据不够时候就会重复.函数matrix()用来定义最常用的一种数组:二维数组,即矩阵。其完全格式为matrix(data=NA,nrow=1,ncol=1,byrow=FALSE,dimnames=NULL)其中第一自变量data为数组的数据向量(缺省值为缺失值NA),nrow为行数,ncol为列数,byrow表示数据填入矩阵时按行次序还是列次序,一定注意缺省情况下按列次序,这与我们写矩阵的习惯是不同的。dimnames缺省是空值,否则是一个长度为2的列表,列表第一个成员是长度与行数相等的字符型向量,表示每行的标签,列表第二个成员是长度与列数相同的字符型向量,表示每列的标签。2.dim(x)=valuevalue是一个向量,指定行数列数,分配方式与上面一样3.另外就是通过rbind()绑定多个向量行列命名colnames(matrix)=c(“”,””,…)rownames(matrix)=c(“”,””,…)矩阵运算矩阵相乘:A%*%Bt(matrix),矩阵转置diag(matrix),矩阵的对角(向量);diag(diag(matrix)),对角矩阵solve(matrix),矩阵求逆eigen(matrix),特征值和特征向量svd(matrix),奇异值分解,返回X包含属性U、d、V工作空间对象ls()列举所有对象rm()删除对象数据框创建数据框data.frame(x1,x2,…)或带上列的名称data.frame(x1.name=x1,x2.name=x2,…)在创建数据框的时候,字符串的列会自动的转换成因子,以方便统计数据框取值data[x,y](取单个值)data[x](取第x列的数据组成的数据框)data[x,](取第x行的数据)data[,y](取第y列的数据)data[a:b,y](取a-b行的第y列的数据)data[c(“colName1”,”colName1”,””,…)],根据列名进行访问注意:data[x]与data[,y]的不同,data[,y]取值后返回的是一个一维向量限定取值可以通过限制列的范围来取子集,但此时同时一定要指定取哪些列,如data[data$colk,c(“col1”,”col2”,…)],用attach(data)可以简化这一步操作,即在attach之后可以直接访问列(所有),data[data$colk],用detach可以解除。另一种控制条件查询的方式即通过subset函数取子集Subset(data,colNamek),此时colName是数据框的一个列属性筛选which()函数进行筛选,which中是筛选条件,如:is.na()…编辑数据edit(data)查看数据框属性查看数据维度:dim(data)返回:行,列单独查看行数列数:nrow(data)、ncol(data)查看列名:names(data),同时修改列名:names(data)=c(“”,””,…)查看数据结构:str(data)查看属性(列名$names、类$class、列$row.names),attributes(data)添加一列data$addCol=c(“”,””,…),添加列的元素应与原来的行数相等merge(dataframeA,dataframeB,by=c(“”,””,…)),横向合并(添加多列)数据操作数据处理变量重命名,调用fix(data),出现一个交互式工具;或者rename(dataframe,c(oldname=”newname,…”))类型转换:is.datatype()判断,as.datatype()转换字符串处理:nchar(),计算字符数量substr(x,start,stop)grep(pattern,v),返回向量坐标sub(pattern,replacement,x),替换strsplit(x,split)分割paste(x,c(),sep=””),在x后面(向量个数)连接c()向量,以sep分隔cat(“str1”,”str2”,…),连接字符串toupper()tolower()读取文件数据data=read.table(”位置”,header=T)读取文本文件data=read.csv(”位置”,header=T)读取csv文件在数据导入R语言后,会以数据框(dataframe)的形式储存。dataframe是一种R的数据格式,可以将它想象成类似统计表格,每一行都代表一个样本点,而每一列则代表了样本的不同属性或特征。初学者需要掌握的基本操作方法就是dataframe的编辑、抽取和运算。数据库操作1、配置数据元安装connector配置数据源(控制面板管理工具数据源)2、连接数据库odbcConnect(data_src,uid=,pwd=)3、查询这个是一个通用类型的操作,即可以查询,又可以添加删除修改sqlQuery(channel,sql)4、更新数据库表,并读取数据(问题暂未解决)sqlSave(channel,mydata,'NEW_TABLE_NAME',append=TRUE)表若不存在则新建,默认以数据框命名。mydata数据框:data.frame()函数建立描述统计统计函数mean()Median()var()mad(),绝对中位差quantile(x,probs),求分位数range(),值域sum()diff(v,lag=n),滞后差分min()max()scale(),按列标准化概率函数分布函数Beta分布beta()柯西分布cauchy()卡方分布chisq()t分布t()F分布f()Logistic分布logis()均匀分布unif()正态分布函数rnorm()对数正态分布lnorm()多项分布mutinom()泊松分布函数pois()指数分布函数exp()Gamma分布函数gamma()均匀分布函数unif()二项分布函数binom()几何分布函数geom()将这些分布函数加上第一个字母:d=密度函数p=分布函数q=分位数函数r=生成随机数统计与整合(分组)summary()描述统计是一种从大量数据中压缩提取信息的工具,最常用的就是summary命令,运行summary(data)得到结果如下:对于数值变量计算了五个分位点和均值,对于分类变量则计算了频数(显示最高的前五个)aggregate(x,by,FUN,...,simplify=TRUE)对数据

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功