大数据分析基础一、基础知识部分习题(共29题,67分)1、大数据的最显著特征是()。(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高2、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据3、下列对大数据特点的说法中,错误的是()。(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高4、当前社会中,最为突出的大数据环境是()。(单选题,本题2分)A:互联网B:物联网C:综合国力D:自然资源5、下列关于计算机存储容量单位的说法中,错误的是()。(单选题,本题2分)A:1KB<1MB<1GBB:基本单位是字节(Byte)C:一个汉字需要一个字节的存储空间D:一个字节能够容纳一个英文字符,6、下列关于聚类挖掘技术的说法中,错误的是()。(单选题,本题2分)A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B:要求同类数据的内容相似度尽可能小C:要求不同类数据的内容相似度尽可能小D:与分类挖掘技术相似的是,都是要对数据进行分类处理7、下列关于大数据的分析理念的说法中,错误的是()。(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据8、大数据时代,数据使用的关键是()。(单选题,本题2分)A:数据收集B:数据存储C:数据分析D:数据再利用9、数据仓库的最终目的是()。(单选题,本题2分)A:收集业务需求B:建立数据仓库逻辑模型C:开发数据仓库的应用分析D:为用户和业务部门提供决策支持10、支撑大数据业务的基础是()。(单选题,本题2分)A:数据科学B:数据应用C:数据硬件D:数据人才11、在网络爬虫的爬行策略中,应用最为基础的是()。(多选题,本题3分)A:深度优先遍历策略B:广度优先遍历策略C:高度优先遍历策略D:反向链接策略E:大站优先策略12、当前,大数据产业发展的特点是()。(多选题,本题3分)A:规模较大B:规模较小C:增速很快D:增速缓慢E:多产业交叉融合13、下列关于数据生命周期管理的核心认识中,正确的是()。(多选题,本题3分)A:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段B:在不同的数据存在阶段,数据的价值是不同的C:根据数据价值的不同应该对数据采取不同的管理策略D:数据生命周期管理旨在产生效益的同时,降低生产成本E:数据生命周期管理最终关注的是社会效益14、下列关于基于大数据的营销模式和传统营销模式的说法中,错误的是()。(多选题,本题3分)A:传统营销模式比基于大数据的营销模式投入更小B:传统营销模式比基于大数据的营销模式针对性更强C:传统营销模式比基于大数据的营销模式转化率低D:基于大数据的营销模式比传统营销模式实时性更强E:基于大数据的营销模式比传统营销模式精准性更强15、下列关于脏数据的说法中,正确的是()。(多选题,本题3分)A:格式不规范B:编码不统一C:意义不明确D:与实际业务关系不大E:数据不完整16、数据再利用的意义在于()。(多选题,本题3分)A:挖掘数据的潜在价值B:实现数据重组的创新价值C:利用数据可扩展性拓宽业务领域D:优化存储设备,降低设备成本E:提高社会效益,优化社会管理17、按照涉及自变量的多少,可以将回归分析分为()。(多选题,本题3分)A:线性回归分析B:非线性回归分析C:一元回归分析D:多元回归分析E:综合回归分析18、大数据人才整体上需要具备()等核心知识。(多选题,本题3分)A:数学与统计知识B:计算机相关知识C:马克思主义哲学知识D:市场运营管理知识E:在特定业务领域的知识19、下列关于大数据的说法中,错误的是()。(多选题,本题3分)A:大数据具有体量大、结构单一、时效性强的特征B:处理大数据需采用新型计算架构和智能算法等新技术C:大数据的应用注重相关分析而不是因果分析D:大数据的应用注重因果分析而不是相关分析E:大数据的目的在于发现新的知识与洞察并进行科学决策20、在噪声数据中,波动数据比离群点数据偏离整体水平更大。(判断题,本题2分)是否21、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。(判断题,本题2分)是否22、一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。(判断题,本题2分)是否23、具备很强的报告撰写能力,可以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是数据分析能力对大数据人才的基本要求。(判断题,本题2分)是否24、谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。(判断题,本题2分)是否25、决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代表最终的分类结果,其优点在于易于实现,决策时间短,并且适合处理非数值型数据。(判断题,本题2分)是否26、信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。(判断题,本题2分)是否27、简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。(判断题,本题2分)是否28、啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。(判断题,本题2分)是否29、对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。(判断题,本题2分)是否二、数据挖掘部分单选题(共20题,20分)1)()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A.关联规则发现B.聚类C.分类D.自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A.Precision,RecallB.Recall,PrecisionA.Precision,ROCD.Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A.分类B.聚类C.关联分析D.隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则7)下面哪种不属于数据预处理的方法?()A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A.第一个B.第二个C.第三个D.第四个9)以下哪种方法不属于特征选择的标准方法:()A.嵌入B.过滤C.包装D.抽样10)下面不属于创建新属性的相关方法的是:()A.特征提取B.特征修改C.映射数据到新的空间D.特征构造11)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()A.0.821B.1.224C.1.458D.0.71612)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()A.一年级B.二年级C.三年级D.四年级13)下列哪个不是专门用于可视化时间空间数据的技术:()A.等高线图B.饼图C.曲面图D.矢量场图14)在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D渐进抽样15)以下哪些算法是分类算法()A.DBSCANB.C4.5C.K-MeanD.EM16)决策树中不包含一下哪种结点()A.根结点(rootnode)B.内部结点(internalnode)C.外部结点(externalnode)D.叶结点(leafnode)17)以下哪项关于决策树的说法是错误的()A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题18)通过聚集多个分类器的预测来提高分类准确率的技术称为()A.组合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)19)在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数。A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度20)个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助()为其顾客购物提供完全个性化的决策支持和信息服务。A.公司B.各单位C.跨国企业D.电子商务网站三、计算题(共13分)1、根据下表中信用卡训练样本,判断(女性,年龄介于31~45之间,不具学生身份,收入中等)者会不会办理信用卡。请自选两种方法进行计算。表信用卡训练样本项目性别年龄学生身分收入办卡1男45否高会2女31~45否高会3女20~30是低会4男20是低不会5女20~30是中不会6女20~30否中会7女31~45否高会8男31~45是中不会9男31~45否中会10女20是低会本题可以使用多种方法,没有固定答案。解题方式合理,计算步骤无误即可。首先根据训练样本计算各属性相对于不同分类结果的条件机率:P(性别=女|办卡=会)=5/7P(性别=女|办卡=不会)=1/3P(年龄=31~45|办卡=会)=3/7P(年龄=31~45|办卡=不会)=1/3P(学生=否|办卡=会)=5/7P(学生=否|办卡=不会)=0/3P(收入=中|办卡=会)=2/7P(收入=中|办卡=不会)=2/3再应用朴素贝叶斯分类法进行类别预测:P(办卡=会)=7/10P(女|会)P(31-45|会)P(否|会)P(中|会)=15/343≒0.044P(办卡=不会)=3/10P(会)P(不会)P(女|不会)P(31-45|不会)P(否|不会)P(中|不会)=0训练样品中对于(女性,年龄介于31~45之间,不具学生身份,收入中等)的个人,按照朴素贝叶斯分类会将其分到办信用卡一类中。办卡的概率是(0.044)/(0.044+0)=1(正规化分类的结果P(会)/(P(会)+P(不会))。所以,使用朴素贝叶斯分类法,会将(女性,年龄介于31~45之间,不具学生身份,收入中等)的个人归类到“会”办理信用卡的类别中。