(完整版)大数据技术原理与应用林子雨版课后习题答案

kingld
0 ℃
2020-11-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。信息化浪潮发生时间标志解决问题代表公司第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮2010年前后物理网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业2.试述数据产生方式经历的几个阶段答：运营式系统阶段，用户原创内容阶段，感知式系统阶段。3.试述大数据的4个基本特征答：数据量大、数据类型繁多、处理速度快和价值密度低。4.试述大数据时代的“数据爆炸”的特性答：大数据时代的“数据爆炸”的特性是，人类社会产生的数据一致都以每年50%的速度增长，也就是说，每两年增加一倍。5.数据研究经历了哪4个阶段？答：人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。6.试述大数据对思维方式的重要影响答：大数据时代对思维方式的重要影响是三种思维的转变：全样而非抽样，效率而非精确，相关而非因果。7.大数据决策与传统的基于数据仓库的决策有什么区别答：数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力，能结合历史数据和实时数据实现查询分析和自动规则触发，从而提供对战略决策和战术决策。大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。8.举例说明大数据的基本应用答：领域大数据的应用金融行业大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。汽车行业利用大数据和物联网技术的五人驾驶汽车，在不远的未来将走进我们的日常生活互联网行业借助于大数据技术，可以分析客户行为，进行商品推荐和有针对性广告投放个人生活大数据还可以应用于个人生活，利用与每个人相关联的“个人大数据”，分析个人生活行为习惯，为其提供更加周全的个性化服务。9.举例说明大数据的关键技术答：批处理计算，流计算，图计算，查询分析计算10.大数据产业包含哪些关键技术。答：IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。11.定义并解释以下术语：云计算、物联网答：云计算：云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起，形成人与物、物与物相连，实现信息化和远程管理控制。12.详细阐述大数据、云计算和物联网三者之间的区别与联系。大数据、云计算和物联网的区别大数据、云计算和物联网的联系大数据侧重于海量数据的存储、处理与分析，海量数据中发现价值，服务于生产和生活；云计算本质上皆在整合和优化各种IT资源并通过网络已服务的方法，廉价地提供给用户；物联网的发展目标是实现呜呜向量，应用创新是物联网的核心从整体来看，大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式存储和管理系统提供了海量数据的存储和管理能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据，构成了大数据的重要数据来源，物联网需要借助于云计算和大数据技术，实现物联网大数据的存储、分析和处理。第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答：Hadoop的核心是分布式文件系统HDFS和MapReduce，HDFS是谷歌文件系统GFS的开源实现，MapReduces是针对谷歌MapReduce的开源实现。2.试述Hadoop具有哪些特性。答：高可靠性，高效性，高可扩展性，高容错性，成本低，运行在Linux平台，支持多种编程语言3.试述Hadoop在各个领域的应用情况。答：2007年，雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadooop集群系统；Facebook主要将Hadoop平台用于日志处理，推荐系统和数据仓库等方面；百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。4.试述Hadoop的项目结构以及每个部分的具体功能。答：PigChukwaHiveHBaseMapReduceHDFSZookeeperCommonAvroCommeon是为Hadoop其他子项目提供支持的常用工具，主要包括文件系统、RPC和串行化库Avro是为Hadoop的子项目，用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。HDFS是Hadoop项目的两个核心之一，它是针对谷歌文件系统的开源实现。HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用HDFS作为其底层数据存储。MapReduce是针对谷歌MapReduce的开源实现，用于大规模数据集的并行运算。Zoookepper是针对谷歌Chubby的一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。Sqoop可以改进数据的互操作性，主要用来在H大哦哦哦配合关系数据库之间交换数据。Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保存在HDFS中供Hadoop进行各种MapReduce操作。第三章1．试述分布式文件系统设计的需求。设计需求含义HDFS的实现情况透明性具备访问透明性、位置透明性、性能、和伸缩透明性只能提供一定程度的访问透明性，完全支持位置透明性、性能和伸缩透明性并发控制客户端对于文件的读写不应该影响其他客户端对同一个文件的读写机制非常简单，任何时候都只允许有一个程序写入某个文件文件复制一个文件可以拥有不同位置的多个副本HDFS采用了多副本机制硬件和操作系统的异构性可以在不同的操作系统和计算机上实现同样的客户端和服务端程序采用Java语言开发，具有很好的跨平台能力可伸缩性支持节点的动态加入或退出建立在大规模廉价机器上的分布式文件系统集群，具有很好的伸缩性容错保证文件服务在客户端或者服务端出现问题的时候能正常使用具有多副本机制和故障自动检测、恢复机制安全保证系统的安全性安全性较弱2．分布式文件系统是如何实现较高水平扩展的？分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（SlaveNode）或者也被称为“数据节点”(DataNode)3．试述HDFS中的块和普通文件系统中的块的区别。答：在传统的文件系统中，为了提高磁盘读写效率，一般以数据块为单位，恶如不是以字节为单位。HDFS中的块，默认一个块大小为64MB，而HDFS中的文件会被拆分成多个块，每个块作为独立的单元进行存储。HDFS在块的大小的设计上明显要大于普通文件系统。4．试述HDFS中的名称节点和数据节点的具体功能。答：名称节点负责管理分布式文件系统系统的命名空间，记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息；数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并向名称节点定期发送自己所存储的块的列表。hadoopfs-lspath显示path指定的文件的详细信息hadoopfs-catpath将path指定的文件的内容输出到标准输出hadoopfs-mkdirpath创建path指定的文件夹hadoopfs-get[-ignorecrc][-crc]srclocaldst复制src指定的文件到本地文件系统localdst指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。hadoopfs-putlocalsrcdst从本地文件系统中复制localsrc指定的单个或多个源文件到dst指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件系统。hadoopfs-rmrpath删除path指定的文件夹及其的所有文件第四章1.试述在Hadoop体系架构中HBase与其他组成部分的相互关系。答：HBase利用HadoopMapReduce来处理HBase中的海量数据，实现高性能计算；利用Zookeeper作为协同服务，实现稳定服务和失败恢复；使用HDFS作为高可靠的底层存储，利用廉价集群提供海量数据存储能力;Sqoop为HBase的底层数据导入功能，Pig和Hive为HBase提供了高层语言支持，HBase是BigTable的开源实现。2.请阐述HBase和BigTable的底层技术的对应关系答：项目BigTableHBase文件存储系统GFSHDFS海量数据处理MapReduceHadoopMapReduce协同服务管理ChubbyZookeeper3.请阐述HBase和传统关系数据库的区别答：区别传统关系数据库HBase数据类型关系模型数据模型数据操作插入、删除、更新、查询、多表连接插入、查询、删除、清空，无法实现表与表之间关联存储模式基于行模式存储，元组或行会被连续地存储在磁基于列存储，每个列族都由几个文件保存，不同列盘也中族的文件是分离的数据索引针对不同列构建复杂的多个索引只有一个行键索引数据维护用最新的当前值去替换记录中原来的旧值更新操作不会删除数据旧的版本，而是生成一个新的版本可伸缩性很难实现横向扩展，纵向扩展的空间也比较有限轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩4.HBase有哪些类型的访问接口？答：HBase提供了NativeJavaAPI,HBaseShell,ThriftGateway,RESTGateWay,Pig,Hive等访问接口。5.请以实例说明HBase数据模型。答：Info列限定符列族NameMajorEmail201505001LuoMinMathLuo@qq.com201505002LiuJunMathliu@qq.com201505003XieYouMathxie@qq.comyou@163.com6.分别解释HBase中行键、列键和时间戳的概念(1)行键是唯一的，在一个表里只出现一次，否则就是在更新同一行，行键可以是任意的字节数组。(2)列族需要在创建表的时候就定义好，数量也不宜过多。列族名必须由可打印字符组成，创建表的时候不需要定义好列。(3)时间戳，默认由系统指定，用户也可以显示设置。使用不同的时间戳来区分不同的版本。7.请举个实例来阐述HBase的概念视图和物理视图的不同HBase数据概念视图行键单元格单元格有两个时间戳ts1和ts2每个时间戳对应一个数据版本行键时间戳列族contents列族anchor“com.cnn.”T5Anchor:cnnsi.com=”CNN”T3Anchor:my.look.ca=”CNN”“com.cnn.”T3Content:html=”html...”T2Content:html=”html...”T1Content:html=”html...”HBase数据物理视图行键时间戳列族anchor“com.cnn.”T5Anchor:cnnsi.com=”CNN”T4Anchor:my.look.ca=”CNN”行键时间戳列族contents“com.cnn.”