R的大数据分析一体化应用跨入大数据时代,数据尽显锋芒!BIG DATARforBigData一切努力都是不再让数据躺着睡觉...目录DIRECTORY1大数据概览2数据抓取4文本挖掘3大数据处理5交互式平台展示RforBigData分析向数据移动的时代到来了...高性能:跑得快高拓展性:适应能力强容错性好:不怕宕支持异构环境:不挑剔,接口多大数据的生命力---源于及时性大数据的成长力---源于预测性大数据技术基础—Hadoop,SparkR生态环境大数据需求基础——数据急速增长业务数据大数据全面爆发源于人们预知未来的梦想RforBigData大数据就在身边,你却无可奈何...?目录DIRECTORY1大数据概览2大数据抓取4大文本挖掘3大数据处理5交互式平台展示RforBigData二:数据抓取-微博数据抓取微博数据2010年中国微博元年,全年的增长率达到259.5%。截至2013年12月,我国微博用户规模为2.81亿,较网民中微博使用率为45.5%。以新浪微博为例,用户月均发表的帖子超过28亿,其中22亿条微博配图,8170万张帖子都带有短视频,2150万张帖子配有歌曲。RforBigData大数据就在身边,你却无可奈何...?API接口和OAUTH2认证OAUTH2认证授权机制:跳转至用户授权地址获取用户资源信息生成AuthCode生成AccessToken生成OpenID请求用户OpenID请求AccessTokenRequestUserUrl(提示登录、给予授权)RequestAccessUrlRequestInfoUrl(通过token、openid及api)install.packages(Rweibo,repos=,type=source)install.packages(RCurl)install.packages(rjson)install.packages(XML)install.packages(digest)install.packages(PKI)install.packages(gmp)require(Rweibo)#创建app二:数据抓取-社交网络数据抓取发展:雏形《链接:网络新科学》——巴拉巴西6度分隔富者越富,穷者越穷,幂律分布,二八原则2012KDDCUP数据挖掘全球竞赛:Predictwhichusers(orinformationsources)one社交网络网络+社交的意思。通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。一个社交网络的平均大小约为124人左右,以人为节点,人与人之间的关系作为边构成整个社交网络。RforBigDataWALKTRAP算法:g_wt-walktrap.community(g_iso,weights=E(g)$weight,steps=200,modularity=TRUE)g_wt大数据就在身边,你却无可奈何...?二:数据抓取-网页数据抓取require(XML)require(RCurl)抓取网页表格数据或者标题结构pm=getURL(website,.encoding=UTF-8)pmweb=htmlParse(pm,encoding=UTF-8)pmtotal=getNodeSet(pmweb,//div[@class='warp']//a)抓取网页数据文件fileUrl1-“https://d39***id.csvdownload.file(fileUrl1,destfile=D://qest-1.csv,)网页数据互联网提供越来越多的数据,无论分析表格,抑或股票数据,抑或经济经营数据,以及评论数据,通常,我们以的API方式获取网站数据,但是R提供了网页(尤其是静态网站)上抓数据的包。RforBigDatarequire(RCurl)require(rjson)抓取网页表格数据或者标题结构Fdjson-getURL(http://ifsfd.**)f-fromJSON(fdjson)fd-matrix(unlist(fdlist),ncol=4,byrow=T)fdd-data.frame(fdm,stringsAsFactors=F)静态网页数据抓取Flash网页数据抓取大数据就在身边,你却无可奈何...?目录DIRECTORY目录DIRECTORY1大数据概览2数据抓取4文本挖掘3大数据处理5交互式平台展示RforBigData数据量太庞大,你无法处理...?Hive数据仓库Sqoop关系数据ETL工具Flume日志收集工具HadoopManager安装、部署、配置、监控、告警和访问控制HadoopManager安装、部署、配置、监控、告警和访问控制Zookeeper分布式协作服务Pig数据流处理Mahout数据挖掘HBase实时、分布式、高维数据库Map/Reduce分布式计算框架HDFS分布式文件系统R数据分析Oozie工作流处理三:大数据处理-R与hadoop的融合架构RforBigData数据量太庞大,你无法处理...?三:大数据处理-RHadoop的工作流Modelread.table(“…”)function(p,q)rhdfsrmrreadtransform…groupby……2345WorkernodeWorkernodeWorkernodeRBridgeHadoop16RforBigData数据量太庞大,你无法处理...?三:大数据处理-基于R的MapReduce程序library(rmr)//启用rmrlibrary关联mapreducelibrary(rhdfs)//启用rhdfslibrary关联hdfshdfs.init()//启动hdfswordcount-function(input,output=NULL,split='[[:punct:][:space:]]+'){mapreduce(input=input,output=output,map=function(k,v){v2=unlist(strsplit(x=v,split=split))v3=v2[v2!='']lapply(v3,function(w){keyval(w,1)})},reduce=function(k,vv){keyval(k,sum(unlist(vv)))})}//编写wordcount函数R语言编写命令(参考样例)//输入文本转成hdfs文件计数lines-c(‘Deer,',‘Bear,‘,’River,‘,’Car.')lines_dfs-to.dfs(lines)wc1-wordcount(input=lines_dfs)data.frame(do.call(rbind,from.dfs(wc1)))RforBigData数据量太庞大,你无法处理...?三:大数据处理-Rhadoop的实际问题和未来趋势配置R和Hadoop后仍需安装数个依赖packagermr需在每个节点安装是安装rJAVA比较费事,选好试用的JDK版本,而且对于路径要设置好大数据量的读入方式最好用dfs文件系统读取MapReduc程序的设计需要考虑迭代的复杂性预先处理Key-value的键值对后效率能得到提升Rhadoop程序运行时,并行job做好不要超过10个;RforBigData数据量太庞大,你无法处理...?ORSparkSpark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。目录DIRECTORY1大数据概览2数据抓取4文本挖掘3大数据处理5交互式平台展示RforBigData看到文本蕴含的价值,你无法着手...?四:数据抓取-网页文本结构抓取数据准备词云展示文本挖掘数据调研最终模型评估使用研究样本需要做可行性调研利用分类统计了解备注的统计差异性文本数据产生和发展情况做分析选取字段读入语料库文本数据清洗,去掉各种符号,数字以及空格等等干扰文字利用中科院的中文分词算法实现汉字的分词利用权重筛选方法,再次去掉词频以及分词个数过少的词组利用词云展示函数,讲经过筛选后的词组,按照词频的大小顺序完成分层展示调整词云参数优化展示效果将筛选过的分词,按照词频大小排列,并导入到客户ID关联表文本相似度计算,利用相似度推荐算法,找出文本相似客户群,并尝试完成用户营销成功率的预测常规花查看不同时期,不同业务形态的文本词云变化初选新增用户以及新增文本作为验证集,将相似度较高的用户做营销验证RforBigData看到文本蕴含的价值,还无法着手...?四:文本分析-R的常用包R文本分析的常用过程R文本逐行读入Corpus语料库数据杂质处理Rwordseg分词Wordcloud展示TD-IDF词频权重TM生成矩阵install.packages(rJava)#install.packages(Rwordseg,repos=)install.packages(Rwordseg,repos=,type=source)install.packages(wordcloud)install.packages(RColorBrewer)install.packages(scales)install.packages(Rcpp)install.packages(tm)install.packages(Rweibo,repos=)install.packages(SnowballC)RforBigData看到文本蕴含的价值,还无法着手...?四:文本分析-词云展现└─Sample├─C000007Travel├─C000008Finance├─C000010IT├─C000013Health├─C000014Sports├─C000016Auto├─C000020Education├─C000022Jobs├─C000023Culture└─C000024Militarycluster_matrix-sapply(unique_type,function(type){apply(tdm_matrix[,zz1[csv$type==type]],1,sum)})png(paste(sample_cluster_comparison,.png,sep=),width=800,height=800)comparison.cloud(cluster_matrix)RforBigData看到文本蕴含的价值,还无法着手...?RforBigData该象限的标签是价值较高的,但是可以覆盖客户面不大该象限的标签是价值最低的,覆盖面小,避免寻找此类标签群用户该象限的标签是价值是反向的,而且客户覆盖面大,具备此象限标签的用户如果过多就会影响业绩该象限的标签不仅客户覆盖面大,而且价值高看到文本蕴含的价值,还无法着手...?四:文本分析-分类价值分析KNN算法sample_knnCl-knn(train,test,trainC1)trueC1-as.factor(rownames(test))层次聚类sample_matrix=as.matrix(sample.dtm)rownames(sample_matrix)-csv$typeSVM支持向量机svmCl-predict(sample_ksvm,test)(svmT