hadoop开发者第二期发布版v3

yioma
4 ℃
2020-05-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

《Hadoop开发者》第二期2010年3月30日发布欢迎投稿出品Hadoop技术论坛总编辑易剑(一见)副总编辑Barry(beyi)代志远(国宝)本期执行主编Barry(beyi)编辑皮冰锋(若冰)易剑(一见)贺湘辉(小米)Barry(beyi)代志远(国宝)柏传杰(飞鸿雪泥)何忠育(Spork)秘中凯陈炬排版/美工/封面设计Barry(beyi)网址@foxmail.com刊首语《Hadoop开发者》的又一期与大家见面了。万事开头难，在主编一见成功地推出创刊号后，短短的几天内下载量过千，发布在我个人博客的《hadoop开发者》就有上百人下载，可见，Hadoop如此受到大家的钟爱，也给予了我们继续下去的动力。Hadoop开发者的第二期继续延续着分享、自由、开放这一开源社区的精神传统，分享给大家Hadoop学习和应用的心得与体会。Hadoop应用一直是大家关注而又热衷的话题，这一期里原本打算推出Hadoop与搜索引擎这一主题，但遗憾的是收到的相关稿件较少，难以成刊，只好作罢。从稿件质量看来，《Hadoop开发者》需要一些更高水平的稿件，而不能仅仅局限于GettingStarted，更需要DeeplyInvolved。办好《Hadoop开发者》，任重而道远，需要Hadoop的爱好者的广泛参与，我们在期待大师级文章的出现。《Hadoop开发者》第二期成刊过程中，我认识了国内某知名猎头公司的“人才猎手”Syvia，得知到业界的很多著名IT公司近几年都在物色Hadoop相关的优秀技术人才，Hadoop正在或已经引起业界的广泛关注。有理由可以期待，Hadoop的未来和应用前景光明。《Hadoop开发者》编辑组本期执行主编：Barry2010-34目录1、Hadoop业界资讯.........................................-1-2、Nutch+Hadoop构建商用分布式搜索引擎的问题探究...........-5-3、支持自定义爬虫的Nutchsegment文件存储接口改写...........-11-4、Nutch中mapreduce应用的几个特殊点......................-14-5、JavaRMI+Lucene构建分布式检索应用初探................-17-6、一对多的表关联在mapreduce中的应用(续)..................-26-7、InputSplit文件格式分析.................................-32-8、短评：HDFS、MapReduce和HBase三者相辅相成、各有长处.....-34-9、HDFS在web开发中的应用.................................-35-10、Mapreduce中value集合的二次排序.......................-38-11、HiveＳＱＬ手册翻译...................................-47-12、MahoutKmeans简介....................................-57-Hadoop资讯《Hadoop开发者》-1-Hadoop业界资讯1.InfoWorld授予ApacheHadoop年度技术创新奖章今年1月，InfoWorld授予ApacheHadoop年度技术创新奖章，获奖理由就是ApacheHadoop公司创造了使用商用硬件上数千兆数据来运行大规模分析计算功能的可能性。有了Hadoop和开源NoSQL数据库来大幅度减少数据处理时间，我们就有机会带来游戏行业的变革，因为游戏程序的改动需要进行高度专业的分析。另外，昂贵的硬件和软件资源也可以供更多的专业人才使用。有可能很多数据的处理过程都将在云上完成，云服务将提供给那些不需要全天候运行大规模计算处理的企业用户。事实上，云本身会有两种方式和开源对接。其一，多用户租赁开源软件成为缺省的软件即服务产品，其二，由谷歌，亚马逊等提供商提供的开放式应用编程接口也会被很多用户用在开源代码的研发上。虽然这还有一段适应的过程，但行业中的很多用户看似都能接受这种重新定义。2.网友观点：SQL和关系型数据库---它们并不适合云计算我参加了在加利福尼亚州圣克拉拉市举行的2010年CloudConnect大会，这是今年最早举行的云计算重大会议之一。到目前为止，会议一个较大的议题是“不使用关系型数据库来保持数据的持久性”。这被称为“NoSQL”运动，其宗旨是使用其他形式的数据库，更有效地处理大规模的数据。而关于围绕云计算出现的“大规模数据”，我已经写过一些文章，但是这一运动更为重要，它将推动数据回归到以更简单、但却可能更有效的模型进行物理存储的方式。NoSQL系统在运行时一般会把数据存放在内存中，或者是并行地从许多磁盘上读取数据。Hadoop技术交流论坛bbs.hadoopor.com-2-其中就有一个问题，“传统”的关系数据库不提供这种模式，因此也没法提供同样的性能。在过去那种数据库中，如果只有几个GB数据，这一问题还不是很明显，但是许多云计算的数据库已经超过了1TB，还会有更多的大规模数据库会被用来支撑不断发展的云计算系统。在关系型数据库上对大规模数据进行操作是兵家大忌，因为在处理数据时SQL请求会占用大量的CPU周期，并且会导致大量的磁盘读写。如果你觉得以前好像在哪里听过这种说法，那么我告诉你其实你是对的。早在上世纪90年代，对象数据库和XML数据库就取得过一些进展，尽管那时许多非关系型数据库确实能提供更好的性能，但很多企业却守住了关系型数据库的江山，如Oracle、Sybase和Informix。然而，由于从关系型数据库上迁移出去的花费和风险太高，而且数据的规模也相对较小，使得关系型数据库几乎一统天下。不过，云计算改变了一切。在云计算中需要对大量的数据进行处理，这一需求导致新的数据库处理方法运用在了旧模型上。MapReduce是Hadoop处理数据的基本方法，它是基于几年前的“无共享”(share-nothing)数据库处理模型，但现在我们有了实现它的处理能力、磁盘空间以及带宽。我估计云计算的发展将会减少对关系型数据库的使用。这并非新鲜事物，但这回我们却实实在在需要改变了。3.Twitter：用Cassandra取代MySQL？甲骨文收购Sun之后，MySQL的发展前景一直受到各方的密切关注。最近，一些MySQL长期用户向其他系统迁移的做法，为MySQL的未来增加了悲观的预期。前段时间，Twitter宣布，将淘汰既有的MySQL系统，改用Cassandra管理信息。Cassandra是一个由Apache基金资助的分布式开源数据库，主要用于将海量数据分布到大量廉价服务器，进而拼凑出一个无单点故障的信息管理集群。而在Twitter之前，Facebook、Digg已经开始使Hadoop资讯《Hadoop开发者》-3-用Cassandra，思科的WebEx也已使用Cassandra来收集用户反馈。曾几何时，MySQL作为互联网的宠儿和开源软件旗手，备受各类互联网应用的青睐。但是，随着Sun收购MySQL，它曾经耀眼的光芒慢慢褪去。对许多用户而言，MySQL已成为商业性盈利产品，其未来发展存在很大不确定性。另外，随着Web2.0应用的不断扩展，很多企业发现，使用MySQL的成本将伴随数据量的膨胀呈指数级增长，集中式数据存储越来越难于达到效率与效益的有机平衡。除此之外，近期兴起的No-SQL运动也给IT行业带来了新的选择。除Cassandra外，No-SQL运动的代表还包括Hadoop、Google的BigTable、MemCacheDB、Voldemort、CouchDB和MongoDB。在这样的背景下，不仅大型互联网企业开始放弃包括MySQL在内的关系型数据库，即便是一些企业的内部应用，考虑到多媒体、电子邮件、空间和地理信息的增多，也开始采用非关系型数据库方案。Twitter官方对Cassandra的一些评论似乎更能说明问题。Twitter称：Cassandra不存在单点故障；出身于Facebook，天生为海量数据设计；适用于大量分布式写操作；依托于一个健康的支持社区。”对于那些建立在关系型数据库之上的系统而言，Cassandra还提供从其他关系型数据库加载数据的手段，这意味着那些潜在用户可以考虑尝试将其系统用于Cassandra，而Twitter也正在这么做的。Twitter计划让两套系统先并行一段时间，待确定新系统稳定运行后再将MySQL淘汰掉。今天的MySQL不得不面临许多问题，它在大型应用领域的采用率较低，同时面临PostgreSQL的强有力竞争者。另外，MySQL的草根版本正在茁壮成长，相对于官方的企业版和社区版，MySQL的分支产品似乎得到了更多的社区支持。不仅如此，收购案并没有真正尘埃落定。尽管目前甲骨文对Sun的收购已经获得了美国和欧盟的认可，但能否通过我国和俄罗斯反垄断部门的审查仍需时日。4.互联网两巨头PK“云计算”Hadoop技术交流论坛bbs.hadoopor.com-4-3月28日消息，由深圳市政府与数字中国联合会共同主办的2010中国(深圳)IT领袖峰会今日在深圳五洲宾馆举行，百度CEO李彦宏和阿里巴巴主席董事局主席马云就云计算展开了交锋。李彦宏认为，云计算的理念已经产生了很多年，是新瓶装旧酒，没有新东西。早期的时候，15年前大家讲客户端跟服务器这个关系，再往后大家讲基于互联网web界面的服务，现在讲云计算，实际上本身都是一样，主要活都是在服务器这端来做，客户端所需要做的事情越来越简单。对于传统软件产业向云计划靠拢，李彦宏表示担忧，他认为这会存在左手打右手的问题。你说你是微软的office，你想弄成所有东西都在云端来做，在客户端什么都不要了，这个多多少少有点左手打右手，吃力不讨好的一个情形。马云不认同李彦宏的观点，他认为云计算最后会是一种分享，数据的处理、存储然后跟分享的机制。他警告说不能小瞧这种机制，云计算可能蕴藏颠覆性力量。我最怕的是老酒装新瓶的东西，你看不清他在玩什么，突然爆发出来最可怕。假如从来没有听说的，这个不可怕。雅虎当年做搜索引擎，然后Google出来了，雅虎很多人认为跟我们也差不多，后来几乎把他们搞死。马云表示，阿里巴巴对云计算充满了信心，能够为社会创造出更大的价值。我们不是觉得这又找到一个新的矿产，我们阿里巴巴拥有大量消费数据、支付宝交易数据，我们觉得这些数据对我们有用，但是可能对社会更有用，比如我们从小企业的信息掌握到整个中国经济、世界经济的问题，从消费者数据给制造业数据，让他们生产出更好产品卖给消费者。马云同时暗示，云计算是大势所趋，是阿里巴巴必须要实施的战略。如果能够把这个数据分享给社会，是一个很有用的。如果有一天我们不做这个，百度、腾讯就会把我们赶出电子商务门口。所以这是客户需要，如果我们不做，将来会死掉。（声明：以上文章均来自互联网，由Barry编辑）支持自定义爬虫的NutchSegment文件存储读写《Hadoop开发者》-5-Nutch+Hadoop构建商用分布式搜索引擎的问题探究（作者：Barry）1.题记众所周知，Nutch和hadoop本是一家，从0.X版本开始，Hadoop从Nutch中剥离出来成为一个开源子项目，Hadoop的初衷是为解决Nutch的海量数据爬取和存储的需要。相信Hadoop的fans都很清楚，Hadoop其实并非一个单纯用于存储的分布式文件系统，而是一个被设计用来在由普通硬件设备组成的大型集群上执行分布式应用的框架（Framework）。Hadoop包含两个部分：一个分布式文件系统HDFS(HadoopDistributedFileSystem)，和一个MapReduce实现。因此，Hadoop的目标是为开发分布式应用提供一个框架，而不是像OpenAFS,Coda那