厦门大学计算机科学系研究生课程《大数据技术原理与应用》上机练习MapReduce编程初级实践主讲教师:林子雨厦门大学数据库实验室二零一五年九月目录目录1作业题目...................................................................................................................................12作业目的...................................................................................................................................13作业性质...................................................................................................................................14作业考核方法...........................................................................................................................15作业提交日期与方式...............................................................................................................16实验平台...................................................................................................................................17实验内容和要求.......................................................................................................................18实验报告...................................................................................................................................4附录1:任课教师介绍.......................................................................................................................4附录2:课程教材介绍....................................................................................................................5厦门大学计算机科学系研究生课程《大数据技术原理与应用》上机练习MapReduce编程初级实践主讲教师:林子雨第1页《大数据技术原理与应用》MapReduce编程初级实践上机练习说明主讲教师:林子雨E-mail:ziyulin@xmu.edu.cn个人主页:作业题目MapReduce编程初级实践。2作业目的1.通过实验掌握基本的MapReduce编程方法;2.掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。3作业性质课后作业,必做,作为课堂平时成绩。4作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。5作业提交日期与方式林子雨编著《大数据技术原理与应用》教材第七章MapReduce内容结束后的下一周周六晚上9点之前提交。6实验平台已经配置完成的Hadoop伪分布式环境。7实验内容和要求1.编程实现文件合并和去重操作对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。输入文件A的样例如下:20150101x20150102y20150103x20150104y20150105z厦门大学计算机科学系研究生课程《大数据技术原理与应用》上机练习MapReduce编程初级实践主讲教师:林子雨第2页20150106x输入文件B的样例如下:20150101y20150102y20150103x20150104z20150105y根据输入文件A和B合并得到的输出文件C的样例如下:20150101x20150101y20150102y20150103x20150104y20150104z20150105y20150105z20150106x2.编写程序实现对输入文件的排序现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第二个整数为原待排列的整数。下面是输入文件和输出文件的一个样例供参考。输入文件1的样例如下:33371240输入文件2的样例如下:416395厦门大学计算机科学系研究生课程《大数据技术原理与应用》上机练习MapReduce编程初级实践主讲教师:林子雨第3页输入文件3的样例如下:14525根据输入文件1、2和3得到的输出文件如下:112435412516625733837939104011453.对给定的表格进行信息挖掘下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。输入文件内容如下:childparentStevenLucyStevenJackJoneLucyJoneJackLucyMaryLucyFrankJackAliceJackJesseDavidAliceDavidJessePhilipDavidPhilipAlma厦门大学计算机科学系研究生课程《大数据技术原理与应用》上机练习MapReduce编程初级实践主讲教师:林子雨第4页MarkDavidMarkAlma输出文件内容如下:grandchildgrandparentStevenAliceStevenJesseJoneAliceJoneJesseStevenMaryStevenFrankJoneMaryJoneFrankPhilipAlicePhilipJesseMarkAliceMarkJesse8实验报告厦门大学计算机系研究生课程《大数据技术原理与应用》实验报告题目:姓名日期实验环境:实验内容与完成情况:出现的问题:解决方案(列出遇到的问题和解决办法,列出没有解决的问题):附录1:任课教师介绍林子雨(1978-),男,博士,厦门大学计算机科学系助理教授,主要研究领域为数据库,实时主动数据仓库,数据挖掘.主讲课程:《大数据技术原理与应用》办公地点:厦门大学海韵园科研2号楼E-mail:ziyulin@xmu.edu.cn个人主页:数据库实验室网站:厦门大学计算机科学系研究生课程《大数据技术原理与应用》上机练习MapReduce编程初级实践主讲教师:林子雨第5页附录2:课程教材介绍《大数据技术原理与应用——概念、存储、处理、分析与应用》,由厦门大学计算机科学系教师林子雨博士编著,是中国高校第一本系统介绍大数据知识的专业教材。本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为读者在大数据领域“深耕细作”奠定基础、指明方向。全书共有13章,系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用。欢迎访问《大数据技术原理与应用——概念、存储、处理、分析与应用》教材官方网站:扫一扫访问教材官网