大数据考试题

ja_fun
1 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

注：考生属哪种类别请划“√”（博士、在校硕士、工程硕士、师资硕士、同等学力、研究生班）√辽宁工程技术大学研究生考试试卷考试时间：2015年7月14日考试科目：考生姓名：评卷人：考试分数：注意事项1、考前研究生将上述项目填写清楚2、字迹要清楚，保持卷面清洁3、试题、试卷一齐交监考老师4、教师将试题、试卷、成绩单，一起送研究生学院；专业课报所在院、系大数据及存储技术课程考试题签一、大数据的定义、特征及面临的主要问题。答：最先经历信息爆炸的学科，如天文学和基金学，创造出了“大数据”这个概念。大数据并非一个确切的概念，尚未有一个确切、统一的定义。目前关于大数据的几个主流定义有：（1）研究机构Gartner的定义，大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。（2）维基百科的定义，大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。（3）麦肯锡的定义，大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。（4）IDC的定义，大数据一般会涉及两种或两种以上的数据形式，它要收集超过100TB的数据，并且是高速、实时数据流；或者是从小数据开始，但数据每年会增长60%以上。（5）大数据科学家JohnRauser提到了一个简单的定义，大数据就是超过了任何一个计算机处理能力的庞大数据量。大数据有四个基本特征：数据规模大（Volume），数据种类多（Variety），数据要求处理速度快（Velocity），数据价值密度低（Value），即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同，后者只强调数据的量，而大数据不仅用来描述大量的数据，还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理，最终获得有价值信息的能力。大数据面临的问题：大数据已成为继物力和人力资源的另一重要资源，将在社会经济发展过程中发挥不可替代的作用；大数据及相关技术可转化为巨大的社会经济价值，被誉为“未来的新石油”。大数据在金融、零售、电影等念和行业取得的成功仅是其价值体现的冰山一角。然而，由于大数据的多源异构、复杂多样、变化快等特点，使得大数据时代的数据管理、数据分析以及信息安全面临着新的挑战。大数据时代下的数据管理机制不同于传统方式。大数据时代下，数据的增长速度远远超过存储空间的增长速度，现有的数据管理方法已不能适用于海量多源异构数据在多种存储设备之间频繁密集流动，不同的应用对于数据传输“时效性”和“完整性”的要求也不尽相同。因此需要研发新型存储技术、传输交换机理，以满足大数据时代对数据的海量存储以及数据跨层、跨域、实时和完整的传输需求。大数据的规模效应冲击着传统的数据分析方法。传统的数据分析方法主要是针对规模较小的结构化数据，且已形成一套行之有效的分析体系。大数据的出现将变革传统的思维方式。大数据的精髓在于我们分析信息时的三个转变，这些转变将改变我们理解和组建社会的方法。第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至处理和某个特别现象相关的所有数据，而不再是依赖于随机采样。第二个转变就是，研究数据之多，以至于我们不再热衷于追求精确度。第三个转变因前两个转变而成，即我们不再热衷于寻找因果关系，而是寻找事物之间的相关关系。另外，由于大数据时代对数据分析实时性的要求，传统的数据分析方法不能直接移植于大数据时代，必须做相应的改变才能适用于大数据的分析与处理。此外，大数据时代信息安全问题逐渐成为各国研究的热点。大数据时代，数据的公开非常必要，政府可以用其分析和了解整个国民经济社会的运行情况，以便更好地指导社会的运行；企业可以分析和了解客户的行为特征，推出针对性的产品和服务，最大化其利益等。但是，数据的公开和隐私保护是相互冲突的两个方面。虽然大数据时代下隐私保护技术已取得重大成果，比如数据匿名方法和差分隐私保护技术等，但2013年十大信息泄密事件表明现在的隐私保护技术仍不能完全保证信息的安全。如何在保证信息安全的前提下进行最大化的数据价值挖掘还有很长一段路要走。另外，大数据时代下人才的缺失、大数据的可视化分析以及技术和商业模式的创新也都是我们面对和亟需解决的问题。二、产生大数据主要有哪些行业或领域，指出一个行业或研究领域的应用情况或研究进展。答：产生大数据主要涉及以下领域领域，包括商业智能软件、数据中心建设与维护、信息安全、IT咨询和方案实施、数据处理、分析环节以及综合处理、语音识别、视频识别等。随着数据的进一步集中和数据量的增大，对海量数据进行安全防护变得更加困难，数据的分布式处理也加大了数据泄露的风险，信息安全正成为制约大数据技术发展的瓶颈。一是大数据成为网络攻击的显著目标。在网络空间，大数据是更容易被“发现”的大目标。一方面，大数据意味着海量的数据，也意味着更复杂、更敏感的数据，这些数据会吸引更多的潜在攻击者。另一方面，数据的大量汇集，使得黑客成功攻击一次就能获得更多数据，无形中降低了黑客的进攻成本，增加了“收益率”。二是大数据加大隐私泄露风险。大量数据的汇集不可避免地加大了用户隐私泄露的风险。一方面，数据集中存储增加了泄露风险；而这些数据不被滥用，也成为人身安全的一部分；另一方面，一些敏感数据的所有权和使用权并没有明确界定，很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。三是大数据威胁现有的存储和安防措施。大数据存储带来新的安全问题。数据大集中的后果是复杂多样的数据存储在一起，很可能会出现将某些生产数据放在经营数据存储位置的情况，致使企业安全管理不合规。大数据的大小也影响到安全控制措施能否正确运行。安全防护手段的更新升级速度无法跟上数据量非线性增长的步伐，就会暴露大数据安全防护的漏洞。四是大数据技术成为黑客的攻击手段。在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时，黑客也在利用这些大数据技术向企业发起攻击。黑客会最大限度地收集更多有用信息，比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息，大数据分析使黑客的攻击更加精准。此外，大数据也为黑客发起攻击提供了更多机会。黑客利用大数据发起僵尸网络攻击，可能会同时控制上百万台傀儡机并发起攻击。五是大数据成为高级可持续攻击的载体。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测，而高级可持续攻击（APT）是一个实施过程，无法被实时检测。此外，大数据的价值低密度性，使得安全分析工具很难聚焦在价值点上，黑客可以将攻击隐藏在大数据中，给安全服务提供商的分析制造很大困难。黑客设置的任何一个会误导安全厂商目标信息提取和检索的攻击，都会导致安全监测偏离应有方向。六是大数据技术为信息安全提供新支撑。当然，大数据也为信息安全的发展提供了新机遇。大数据正在为安全分析提供新的可能性，对于海量数据的分析有助于信息安全服务提供商更好地刻画网络异常行为，从而找出数据中的风险点。对实时安全和商务数据结合在一起的数据进行预防性分析，可识别钓鱼攻击，防止诈骗和阻止黑客入侵。网络攻击行为总会留下蛛丝马迹，这些痕迹都以数据的形式隐藏在大数据中，利用大数据技术整合计算和处理资源有助于更有针对性地应对信息安全威胁，有助于找到攻击的源头。三、何谓科学研究的四个范式？各自所处时代及研究方法。答：科学研究的四个范式如下：（1）几千年前的科学，以记录和描述自然现象为主，称为“实验科学”，即第一范式，其典型案例如钻木取火；（2）数百年前，科学家们开始利用模型归纳总结过去记录的现象，发展出“理论科学”，即第二范式，其典型案例如牛顿三定律、麦克斯韦方程组、相对论等；（3）过去数十年，科学计算机的出现，诞生了“计算科学”，对复杂现象进行模拟仿真，推演出越来越多复杂的现象，其典型案例如模拟核试验、天气预报等；（4）今天，以及未来科学的发展趋势是，随着数据量的高速增长，计算机将不仅仅能做模拟仿真，还能进行分析总结，得到理论。也就是说，过去由牛顿、爱因斯坦等科学家从事的工作，未来可以由计算机来做。JimGray将这种科学研究的方式，成为第四范式，即数据密集型科学。四、图示大数据分析的基本流程，各步骤的主要工作。答：数据抽取与集成：从中提取出关系和实体，经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取是需要对数据进行清洗，保证数据质量。数据分析：是整个大数据处理流程的核心。从异构数据源抽取和集成的数据构成数据分析的原始数据，根据不同应用需求从这些数据中选择全部或部分进行分析。数据解释：大数据处理的核心。进行可视化、数据出处以及人机交互。如果分析的结果正确但没有采用适当的解释方法，所得到的结果很可能让用户难以理解。五、MapReduce模型的执行步骤，其核心思想及主要技术有哪些？答：MapReduce主要包括两个步骤：Map和Reduce。每一步都有key-value对作为输入和输出：Map阶段的key-value对的格式是由输入的格式所决定的，则每行作为一个记录进程处理，其中key为此行的开头相对于文件的起始位置，value就是此行的字符文本Map阶段的输出的key-value对的格式必须同Reduce阶段的输入key-value对的格式相对应。每个阶段都将一系列key-value对作为输入和输出，其中的键和值的类型为MapReduce用户指定。用户同时指定两个函数：map函数和reduce函数。用户自定义的map函数，接受一个输入key-value对，然后产生一系列临时中间key-value对。我们把所有具有相同中间key的临时key-value对聚合在一起,然后把它们传递给reduce函数。用户自定义的reduce函数，接受一个中间key和相关的一个value集。它合并这些value，形成一个比较小的value集。通常，每次reduce调用只产生1个输出value。以这种函数式编写的程序能自动的在大规模的普通机器上并行的执行。MapReduce核心思想是对大数据并行处理，分而治之。做一个计算，如果计算过程中如果数据传输消耗的资源大于计算消耗的资源，考虑在计算过程中，将算法（程序）移动到数据存放的服务器中，再进行计算。其主要技术：（1）数据划分和计算任务调度。（2）数据/代码互定位。（3）系统优化。（4）出错检测和恢复。六、试给出词频计算或密码统计的MapReduce计算过程及其实现函数。答：Map函数和Reduce函数是交给用户实现的，这两个函数定义了任务本身。Map函数：接受一个键值对（key-valuepair），产生一组中间键值对。MapReduce框架会将Map函数产生的中间键值对里键相同的值传递给一个Reduce函数。Reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。统计词频的MapReduce函数的核心代码主要实现这两个函数。map(Stringkey,Stringvalue)://key:documentname//value:documentcontentsforeachwordwinvalue:EmitIntermediate(w,1);reduce(Stringkey,Iteratorvalues)://key:aword//values:alistofcountsintresult=0;foreachvinvalues:result+=ParseInt(v);Emit(AsString(result));在统计词频的例子里，map函数接受的键是文件名，值是文件的内容，map逐个遍历单词，每遇到一个单词w，就产生一个中间键值对，这表示单词w咱又找到了一个；MapReduce将键相同（都是单词w）的键值对传给Reduce函数，这样Reduce函数接受的键就是单词w，值是一串1（最基本的实现是这样，但可以优化），个数等于键为w的键值对的个数，然后将这些1累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置，存储在底层的分布式存