R语言学习笔记常用函数1、聚类常用的包:fpc,cluster,pvclust,mclust基于划分的方法:kmeans,pam,pamk,clara基于层次的方法:hclust,pvclust,agnes,diana基于模型的方法:mclust基于密度的方法:dbscan基于画图的方法:plotcluster,plot.hclust基于验证的方法:cluster.stats2、分类常用的包rpart,party,randomForest,rpartOrdinal,tree,marginTree,maptree,survival决策树:rpart,ctree随机森林:cforest,randomForest回归,Logistic回归,Poisson回归:glm,predict,residuals生存分析:survfit,survdiff,coxph3、关联规则与频繁项集常用的包arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则DRM:回归和分类数据的重复关联模型APRIORI算法,广度RST算法:apriori,drmECLAT算法:采用等价类,RST深度搜索和集合的交集:eclat4、序列模式常用的包:arulesSequencesSPADE算法:cSPADE5、时间序列常用的包:timsac时间序列构建函数:ts成分分解:decomp,decompose,stl,tsr6、统计常用的包:BaseR,nlme方差分析:aov,anova密度分析:density假设检验:t.test,prop.test,anova,aov线性混合模型:lme主成分分析和因子分析:princomp7、图表条形图:barplot饼图:pie散点图:dotchart直方图:hist密度图:densityplot蜡烛图,箱形图boxplotQQ(quantile-quantile)图:qqnorm,qqplot,qqlineBi-variateplot:coplot树:rpartParallelcoordinates:parallel,paracoor,parcoord热图,contour:contour,filled.contour其他图:stripplot,sunflowerplot,interaction.plot,matplot,fourfoldplot,assocplot,mosaicplot保存的图表格式:pdf,postscript,win.metafile,jpeg,bmp,png8、数据操作缺失值:na.omit变量标准化:scale变量转置:t抽样:sample堆栈:stack,unstack其他:aggregate,merge,reshape9、与数据挖掘软件Weka做接口RWeka:通过这个接口,可以在R中使用Weka的所有算法。安装程序包1用函数install.packages()2安装本地zip包路径:Packagesinstallpackagesfromlocalfiles查看安装的包installed.packages()检查更新old.packages()更新update.packages()帮助查看帮助文档?install.package()help(“install.package”)函数帮助?functionhelp(‘function’)html帮助Help.start()帮助Html帮助关键词搜索RSiteSearch(‘word’)数据类型向量创建向量c(),创建向量length(),向量长度删除向量vector[-n],即删除第n个向量mode(),向量类型rbind(),向量元素都作为一行rowcbind(),向量元素都作为一列col*创建向量序列seq(from,to,by=((to-from)/(length.out-1)),length...),length是总长度(个数),因此by就是间隔rep(mode,time)产生mode重复time次的向量letters[n:m]产生字符向量rnorm(n,mean=…,sd=…)随机序列取子集值范围限制如:V(xm|xn)索引坐标限制如:V[c()],V[1:3]创建向量空间V=vector()创建向量空间后就可以对向量元素进行赋值常用计算函数mean(x),sum(x),min(x),max(x),var(x),方差sd(x),标准差cov(x),协方差cor(x),相关度prod(x),所有值相乘的积which(x的表达式),which.min(x),which.max(x)rev(x),反转sort(x),排序因子因子是用水平来表示所有可能取的值创建(转换)因子factor(v,level=vl)level不指定则默认v中所有值gl(k,n)k是因子的水平个数,n是每个水平重复的个数因子统计nlevels(factor)查看因子水平table(factor)频数prop.table(factor)概率交叉统计对于两个向量进行统计会构成一张交叉的表table(factor1,,factor2)向量命名names(v)=c(“area1”,”area2”,…),命名后就可以按名称取值了,v[“area1”]矩阵创建矩阵1.matrix(v,nrow=1,ncol=1,byrow=FALSE),一列(不是行)一列的分配,当数据不够时候就会重复.函数matrix()用来定义最常用的一种数组:二维数组,即矩阵。其完全格式为matrix(data=NA,nrow=1,ncol=1,byrow=FALSE,dimnames=NULL)其中第一自变量data为数组的数据向量(缺省值为缺失值NA),nrow为行数,ncol为列数,byrow表示数据填入矩阵时按行次序还是列次序,一定注意缺省情况下按列次序,这与我们写矩阵的习惯是不同的。dimnames缺省是空值,否则是一个长度为2的列表,列表第一个成员是长度与行数相等的字符型向量,表示每行的标签,列表第二个成员是长度与列数相同的字符型向量,表示每列的标签。2.dim(x)=valuevalue是一个向量,指定行数列数,分配方式与上面一样3.另外就是通过rbind()绑定多个向量行列命名colnames(matrix)=c(“”,””,…)rownames(matrix)=c(“”,””,…)矩阵运算矩阵相乘:A%*%Bt(matrix),矩阵转置diag(matrix),矩阵的对角(向量);diag(diag(matrix)),对角矩阵solve(matrix),矩阵求逆eigen(matrix),特征值和特征向量svd(matrix),奇异值分解,返回X包含属性U、d、V工作空间对象ls()列举所有对象rm()删除对象数据框创建数据框data.frame(x1,x2,…)或带上列的名称data.frame(x1.name=x1,x2.name=x2,…)在创建数据框的时候,字符串的列会自动的转换成因子,以方便统计数据框取值data[x,y](取单个值)data[x](取第x列的数据组成的数据框)data[x,](取第x行的数据)data[,y](取第y列的数据)data[a:b,y](取a-b行的第y列的数据)data[c(“colName1”,”colName1”,””,…)],根据列名进行访问注意:data[x]与data[,y]的不同,data[,y]取值后返回的是一个一维向量限定取值可以通过限制列的范围来取子集,但此时同时一定要指定取哪些列,如data[data$colk,c(“col1”,”col2”,…)],用attach(data)可以简化这一步操作,即在attach之后可以直接访问列(所有),data[data$colk],用detach可以解除。另一种控制条件查询的方式即通过subset函数取子集Subset(data,colNamek),此时colName是数据框的一个列属性筛选which()函数进行筛选,which中是筛选条件,如:is.na()…编辑数据edit(data)查看数据框属性查看数据维度:dim(data)返回:行,列单独查看行数列数:nrow(data)、ncol(data)查看列名:names(data),同时修改列名:names(data)=c(“”,””,…)查看数据结构:str(data)查看属性(列名$names、类$class、列$row.names),attributes(data)添加一列data$addCol=c(“”,””,…),添加列的元素应与原来的行数相等merge(dataframeA,dataframeB,by=c(“”,””,…)),横向合并(添加多列)数据操作数据处理变量重命名,调用fix(data),出现一个交互式工具;或者rename(dataframe,c(oldname=”newname,…”))类型转换:is.datatype()判断,as.datatype()转换字符串处理:nchar(),计算字符数量substr(x,start,stop)grep(pattern,v),返回向量坐标sub(pattern,replacement,x),替换strsplit(x,split)分割paste(x,c(),sep=””),在x后面(向量个数)连接c()向量,以sep分隔cat(“str1”,”str2”,…),连接字符串toupper()tolower()读取文件数据data=read.table(”位置”,header=T)读取文本文件data=read.csv(”位置”,header=T)读取csv文件在数据导入R语言后,会以数据框(dataframe)的形式储存。dataframe是一种R的数据格式,可以将它想象成类似统计表格,每一行都代表一个样本点,而每一列则代表了样本的不同属性或特征。初学者需要掌握的基本操作方法就是dataframe的编辑、抽取和运算。数据库操作1、配置数据元安装connector配置数据源(控制面板管理工具数据源)2、连接数据库odbcConnect(data_src,uid=,pwd=)3、查询这个是一个通用类型的操作,即可以查询,又可以添加删除修改sqlQuery(channel,sql)4、更新数据库表,并读取数据(问题暂未解决)sqlSave(channel,mydata,'NEW_TABLE_NAME',append=TRUE)表若不存在则新建,默认以数据框命名。mydata数据框:data.frame()函数建立描述统计统计函数mean()Median()var()mad(),绝对中位差quantile(x,probs),求分位数range(),值域sum()diff(v,lag=n),滞后差分min()max()scale(),按列标准化概率函数分布函数Beta分布beta()柯西分布cauchy()卡方分布chisq()t分布t()F分布f()Logistic分布logis()均匀分布unif()正态分布函数rnorm()对数正态分布lnorm()多项分布mutinom()泊松分布函数pois()指数分布函数exp()Gamma分布函数gamma()均匀分布函数unif()二项分布函数binom()几何分布函数geom()将这些分布函数加上第一个字母:d=密度函数p=分布函数q=分位数函数r=生成随机数统计与整合(分组)summary()描述统计是一种从大量数据中压缩提取信息的工具,最常用的就是summary命令,运行summary(data)得到结果如下:对于数值变量计算了五个分位点和均值,对于分类变量则计算了频数(显示最高的前五个)aggregate(x,by,FUN,...,simplify=TRUE)对数据