HADOOP与大数据2014年01月HADOOP简介1HADOOP安装2目录MapReduce编程34HADOOP相关技术简介5NOSQL,MPP数据库6大数据核心算法基于hadoop的分布式存储基于hadoop平台的存储方式基于hadoop的硬件架构案例HADOOP核心功能HADOOP简介1HADOOP安装2目录MapReduce编程34HADOOP相关技术简介5NOSQL,MPP数据库6大数据核心算法HADOOP安装Linux安装Jdk安装(1.6以上版本)ssh(SecureShell)免密码登录配置Hadoop安装LINUX安装CYGWIN安装真实LINUX操作系统VMWARE(SecureShell)免密码登录/etc/ssh/sshd_config(修改sshd配置文件)PubkeyAuthenticationyesAuthorizedKeysFile.ssh/authorized_keys(去掉注释)ssh-keygen-tdsa-P‘’(生成密钥对)scp~/.ssh/id_dsa.pubroot@datanode1:~/.ssh/authorized_keys(公共密码拷贝到datanode机器中)chmod0600~/.ssh/*(更改文件权限)详细步骤:(将namenode中的密钥加入身份认证列表)namenodedatanodeHadoop安装1、复制文件hadoop2、配置变量java_home,path,hadoop_home3、配置文件:core-site.xml(定义namenode),hdfs-site.xml(定义副本数量),mapred-site.xml(jobtracker),master,slave;参考网址:、启动进程start-all.sh4、格式化namenode(bin/hadoopnamenode–format)6、测试HADOOP简介1HADOOP安装2目录MapReduce编程34HADOOP相关技术简介5NOSQL,MPP数据库6大数据核心算法什么是MapReduceMapReduce运行环境单一REDUCE多个REDUCE无REDUCE示例示例示例示例示例示例示例HADOOP简介1HADOOP安装2目录MapReduce编程34HADOOP相关技术简介5NOSQL,MPP数据库6大数据核心算法HADOOP相关技术Pig语法举例hbase语法举例建立一个表格scores具有两个列族grad和couresehbase(main):002:0create'scores','grade','course'加入一行数据,行名称为Tom列族grad的列名为””值位1hbase(main):005:0put'scores','Tom','grade:','1'0row(s)in0.0070seconds查看scores表中Tom的相关数据hbase(main):011:0get'scores','Tom'HIVE语法举例createtabletest_table(idint,namestring,noint)rowformatdelimitedfieldsterminatedby','storedastextfile;DropTabletablename;SELECT*FROM(SELECTSUM(A)ASUMFROMATABLEGROUPBYA)SUBQ1WHEREASUM另外:不支持in,exist不支持having语法,须增加子查询不支持update和delete操作,只支持覆盖的insert操作HADOOP简介1HADOOP安装2目录MapReduce编程34HADOOP相关技术简介5NOSQL,MPP数据库6大数据核心算法不怎么支持sql;开源;键值存储;并行计算;速度较快•GBase8a(南大通用)•Greenplum(EMC)•Vertica(hp)•AsterData(teradata)•SybaseIQ(sap)•F1/Spanner(google)Stado(开源)•Hbase(大表实时操作)•Bigtable(大数据,快速读)•Cassandra(高性能,类sql)•Dynamo(快速读写)•Dremel(类sql,快速读)•Neo4j(适用图形数据)•Redis(快速读写)Nosql、MPP支持sql;不开源;列存储;并行计算;速度较慢特点比较HADOOP简介1HADOOP安装2目录MapReduce编程34HADOOP相关技术简介5NOSQL,MPP数据库6大数据核心算法关于大数据的思考在解决了大数据的存储与计算之后,如何从海量数据中挖掘出有价值的信息?如何实现数据货币化?一些大数据的传说:大数据是未来世界的石油数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源大数据开启了一次重大的时代转型人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来大数据,是下一轮创新、竞争和生产力的前沿对于企业来说,海量数据的运用将成为未来竞争和增长的基础谁拥有了数据以及对数据的发掘能力,谁就将占领下一个十年全球经济发展的制高点探索大数据价值实现看看人家是如何利用大数据的Target竟然比父亲更早地知道女儿怀孕了沃尔玛将啤酒和尿布捆绑销售FlightCaster,预测飞机晚点FICO,信用评分系统,用15个变量预测单个借贷者是否会偿还债务。德勤给aviva的预测模型,可以根据生活方式预测疾病,保险公司可以节省125美元每人,而成本只5美元。Kaggle公司提供数据挖掘竞赛,二手车质量模型,橙色的车质量问题是其他车的一半。孟菲斯市2006年启动“大数据”系统锁定了更容易发生犯罪的地点和更容易抓捕罪犯的时间,使重大犯罪发生率下降26%。发现了新的知识从各种媒体表示的信息中,根据不同的需求获得知识。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。也有的说法是,知识发现是数据挖掘的别名。知识发现、数据挖掘、机器学习数据挖掘的描述有很多,个人倾向于这个版本:一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。机器学习(MachineLearning,ML)专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。是人工智能的核心。已逐渐成为智能数据分析技术的创新源。supportvector(支持向量机)NaiveBayes(朴素贝叶斯)K-nearestneighbours(最邻近)Decisiontree(决策树)常用机器学习算法理解这些算法的基础:微积分、概率论、数理统计或许我们对数学也不是很感兴趣,读书时学到的数学知识也忘得差不多了,但这并不影响我们利用这些算法来分析数据决策树应用案例任务:通过天气信息,预测当天是否有演出步骤一、收集以往的天气信息、演出信息:气温、是否刮风、气候(阴晴)、湿度、是否演出步骤二、通过决策树算法,将收集的信息进行训练步骤三、生成预测模型,根据任意的天气信息输入,预测是否有演出模型准确率是判断一个模型是否有实际意义的唯一标准,本次建模的准确率:100%SMO应用案例任务:自动识别金庸与古龙的文学作品步骤一、收集金庸和古龙的作品内容各1500字步骤二、进行中文分词步骤三、将词加入队列,作为字段,采用SMO算法进行训练验证准确率达到100%,说明这二位作家的风格完全不同步骤四、输出模型,查看准确率步骤五、随机摘取金庸和古龙的文学作品,进行验证推荐阅读与访问官网=node/57数据挖掘的一些学习资料大量的机器学习资源链接