11大数据集成方案:Oracle+Hadoop,R+Hadoopx+Hadoop,数据集成实战案例3

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop数据分析平台第11周DATAGURU专业数据分析网站黄志洪2013.01.08法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站配置hosts文件建立hadoop运行账号配置ssh免密码连入下载并解压hadoop安装包配置namenode,修改site文件配置hadoop-env.sh配置masters和slaves文件向各节点复制hadoop格式化namenode启动hadoop用jps检验各后台进程是否成功启动3DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop大集群实施设备选型是否使用虚拟机?使用DNS代替hosts文件使用NFS实现密钥共享利用脚本复制hadoop——awk技巧4DATAGURU专业数据分析网站黄志洪2013.01.08DNSLinux下使用bind5DATAGURU专业数据分析网站黄志洪2013.01.08NFS网络文件系统《Hadoop权威指南》第266页6DATAGURU专业数据分析网站黄志洪2013.01.08用awk生成脚本的技巧强大的武器:awk怎样使用awk生成脚本的技巧7DATAGURU专业数据分析网站黄志洪2013.01.08云计算是什么?相关软硬件厂商(争先恐后状):我的产品就是云计算不相关软硬件厂商(争风吃醋状):云计算不就是一根网线加上计算机嘛政府官员:云计算就是超级计算机广大围观者:云计算就是集群?OrHadoop?OrOpenstack?OrVmware?Or…?网格和云计算有什么差别?8DATAGURU专业数据分析网站黄志洪2013.01.08云计算是服务模式和拥有模式的革命云计算是服务模式:它不是新技术,更准确来说不应称之为技术,它是在一些关键技术日趋成熟后催生的一种新的服务模式云计算通过集中拥有,使到用户能得到其本身无法得到的服务,或是以更低成本获得相同的服务,降低拥有成本是云计算的核心价值之一云计算项目,必先考虑服务模式和盈利模式的问题,其次才是投资和技术9DATAGURU专业数据分析网站黄志洪2013.01.08云计算的特征自我服务按使用量计费弹性架构可定制化10DATAGURU专业数据分析网站黄志洪2013.01.08云计算怎样降低成本?提高软硬件使用率集中管理降低能耗节约维护人员费用11DATAGURU专业数据分析网站黄志洪2013.01.08能耗是日益严重的问题2010年,美国计算机耗电量占总耗电量15%,预计到今年将翻一番服务器在空转状态时的耗能,依然达到满载耗能的50%现有关键计算硬件并非绿色设计,单位能源产生的计算能力成为重要指标。据某研究机构测试CPU降频5%,计算时间增加到原先1.04倍,但耗电降低50%12DATAGURU专业数据分析网站黄志洪2013.01.08云计算模式也会增加成本安全风险可用性风险绑架风险13DATAGURU专业数据分析网站黄志洪2013.01.08盈利模式是云计算的核心问题云计算领域的现状是项目找资金,资金找项目,折中点是有创意的盈利模式互联网公司是云计算的先行者技术相对于服务模式和盈利模式并不是门槛14DATAGURU专业数据分析网站黄志洪2013.01.08云计算的形态私有云公有云混合云15DATAGURU专业数据分析网站黄志洪2013.01.08目前流行的开源云计算解决方案HadoopOpenstack16DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop在云计算中的用途分布式文件系统提供的低单位成本的巨大的存储能力,高冗余度的可靠性Map-Reduce提供快速并行计算能力,这种能力可以随着节点数的增加线性递增17DATAGURU专业数据分析网站黄志洪2013.01.08场景一:日志分析18DATAGURU专业数据分析网站黄志洪2013.01.08探针设计19DATAGURU专业数据分析网站黄志洪2013.01.08排除爬虫和程序点击,对抗作弊用鼠标测动对抗爬虫常用流量作弊手段跟踪用户20DATAGURU专业数据分析网站黄志洪2013.01.08需要的统计图表21DATAGURU专业数据分析网站黄志洪2013.01.08遇到的问题日志的保存需要大量的空间日志的备份成本统计时滞明显,不能满足业务要求22DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop方案部署多个节点的Hadoop集群探针激活java程序,在内存保存一定数量的日志信息后,利用API集中写入到HDFSHDFS既能保存日志,同时也提供了备份功能用定时脚本清除过期的日志用定时脚本激活pig进行统计,统计结果回写到输出文件应用通过API读取输出文件里的数据,再展示给用户23DATAGURU专业数据分析网站黄志洪2013.01.08Hadoop+Hbase方案部署Hadoop+Hbase集群探针激活java程序,程序把每条日志利用API集中写入到HBase(也考虑过批量入库)Hbase保存数据,它基于HDFS提供了冗余备份利用时间戳和生存期自动清除过期日志定时执行一java程序从hbase读出数据统计,结果写入mysql应用直接从mysql中读出结果展示本方案的优点是可以统计更为复杂的数据24DATAGURU专业数据分析网站黄志洪2013.01.08复杂的统计图表25DATAGURU专业数据分析网站黄志洪2013.01.08复杂的统计图表26DATAGURU专业数据分析网站黄志洪2013.01.08场景二:某运营商数据分析实例运营商网分程序:–网分预处理程序–网分位置统计程序位置更新表27DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分预处理程序输入:网分数据输出:网分基础表28DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分预处理程序29输入与输出格式必须上下文一致把输入的行转换为String输出Key和ValueDATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分预处理程序30在网页显示必须与类名一致与程序输出格式一致DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分位置统计程序输入:网分预处理程序结果输出:网分位置表31DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分位置统计程序32上下文对应先于所有的Map程序DATAGURU专业数据分析网站黄志洪2013.01.08运营商Hadoop集群数据分析实例网分位置统计程序33使用迭代获取所有ValueDATAGURU专业数据分析网站黄志洪2013.01.08炼数成金逆向收费式网络课程Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功