商务智能题库整理

wxihuan
0 ℃
2020-12-27

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

商务智能--复习提纲一．选择题(第一次作业)1.数据仓库是随着时间变化的，下面的描述不正确的是AA.数据仓库随时间变化不断删去旧的数据内容B.捕捉到的新数据会覆盖原来的数据C.数据仓库随时间的变化不断增加新的数据内容D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合2.OLAP在辅助决策时，基于用户建立的一系列假设驱动，通过OLAP来证实或者推翻这些假设是个（）的过程CA集成B转换C演绎D归纳3.不同操作型系统之间的数据一般是相互独立、异构的。而数据仓库中的数据是对分散的数据进行抽取、清理、转换和汇总后得到的，这样就保证了数据仓库的数据关于整个企业的（）DA时变性B非易失性C差异性D一致性4.如下图所示操作是OLAP分析的哪种操作（D）A切片B旋转C下钻D上钻5.数据立方体中的数据单元格是一个数值函数，该函数可以对数据立方体求值，如下哪个函数可以用来对数据立方体进行度量（）CA．substring()B．rand()C．sum()D．trunc()6.关于数据仓库数据的时变性，如下描述不正确的是DA操作型系统存储的是当前数据，而数据仓库中的数据是历史数据B数据仓库中的数据是按照时间顺序追加的，它们都带有时间属性C数据仓库的数据时限一般要远远长于操作型数据的数据时限D数据仓库对响应时间要求不严格，处理时间从几秒到几分钟，有时甚至几小时7.数据仓库是面向主题的，逻辑意义上每一个商业主题都对应与企业决策包含的分析对象，一家保险公司的数据仓库的主题可能包含哪些BA顾客储蓄账B顾客、账户、索赔C顾客保险金额D顾客账单8.假如警察要得到某犯罪嫌疑人在指定时间段的通话记录最有可能在（C）系统中获得A决策支持系统B电信营业账务系统C电信数据仓库系统D元数据管理系统9.下面关于数据粒度的描述不正确的是BA数据综合度越高，粒度也就越大，级别也就越高B数据越详细，粒度就越小，级别也就越高C粒度是指数据仓库小数据单元的详细程度和级别D粒度的具体划分将直接影响数据仓库中的数据量以及查询质量10.数据仓库并非只是数据的简单累积，而是要经过一系列的处理过程，即ETL，ETL过程包括哪些CA数据操作、数据挖掘、数据转义B数据存储、数据维护、数据分析C数据抽取、数据转换、数据装载D数据定义、数据建模、数据管理11.企业要建立预测模型，需准备建模数据集，以下四条描述建模数据集正确的AA尽可能多的适合的数据B得分集数据是建模集数据的一部分C数据越多越好D以上三条都正确12.关于基本数据的元数据是指DA基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息B基本元数据包括日志文件和简历执行处理的时序调度信息C基本元数据包括与企业相关的管理方面的数据和信息D基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息13.数据立方体中的数据单元格中的数据可以通过如下哪些函数获得？AA分布聚集函数count()、sum()、min()、max()和代数聚集函数avg()、stddev()B分析函数C分布聚集函数count()、sum()、min()、max()D聚集函数avg()、stddev()14.关于OLAP和OLTP的说法，下列不正确的是BA．OLTP以应用为核心,是应用驱动的B．OLAP事务量大，但事务内容比较简单且重复率高C．OLAP的最终数据来源与OLTP不一样D．OLTP面对的是决策人员和高层管理人员15.数据挖掘是通过（）的方式在海量数据中主动找寻模型，自动发掘隐藏在数据中的价值信息，OLAP分析结果为挖掘提供分析依据。CA演绎B集成C归纳D转换16.数据仓库的逻辑模型雪花模型是星型模型的扩展，某些维表中的数据可以进一步分解到附加的表中，其操作原理是（）CA.减小数据粒度B.便于数据集成C.减少冗余，节省存储空间D.定义外键约束，方便数据操作17.有关数据仓库的开发特点，不正确的描述是CA.数据仓库的开发是一个不断循环的过程,是启发式的开发B.在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据C.数据仓库开发要从数据出发D.数据仓库使用的需求在开发初期就要明确18.（）技术可用于数据挖掘过程展示、数据挖掘结果展示CA.数据仓库B.ETLC.可视化D.数据挖掘19.关于OLAP的特性，下面正确的是（）(1)快速性(2)可分析性(3)多维性(4)共享性DA.(3)(4)B.(2)(3)(4)C.(1)(2)(3)(4)D.(1)(2)(3)20.OLAP技术的核心是AA.多维分析B.在线性C.互操作性D.用户的快速响应21.如下图所示数据仓库的逻辑模型是？BA.星型模型B.雪花模型C.衍生模型D.星系模型22.数据立方体中的数据单元格和坐标分别被称为（）BA.维，角度B.度量，维C.数据，多维数据D.事实，取值二．判断题T1.星型模型的核心是事实表，事实表把各种不同的维表连接起来F2.决策是在充分的信息和知识基础上的判断，因此决策是没有风险的。T3.数据仓库主要有面向主题、集成性、数据的非易失性、数据的时变性等特征。T4.企业的数据处理大致分为两类，一类是从操作型处理，也称做联机事务处理，另一类是分析型处理，一般针对某些主题的历史数据进行分析，支持管理决策。T5.在线分析处理比较常用的操作包括对多维数据的切片与切块、上钻与下钻以及旋转等。T6.业务系统一般存储细粒度的事务型数据，而数据仓库中的数据是用于查询、分析，因此需要多种不同粒度的数据，这些不同粒度的数据可以通过对细粒度的事务型数据进行聚合而产生。F7.数据仓库只是数据的简单积累，不需要抽取、转换和装载的过程，即可完成数据仓库数据的组装T8.元数据是关于数据的数据，主要包括数据源的描述、数据的抽取规则、数据的转换规则、数据加载频率、数据仓库模型等F9.数据仓库的数据为历史数据，从来不需要更新F10.数据仓库的数据量越大，其应用价值也越大T11.数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程F12.OLAP是用来协助企业对响应事件或事务的日常商务活动进行处理F13.数据仓库的维度建模方式与关系数据库的实体-关系建模无关，维度分析撇开原有的关系模型，单独构建事实表和维表。T14.对于企业而言，由于不同用户提供的数据可能来自不同的数据源，数据内容、数据格式和质量千差万别，数据的准确性、真实性和完整性都不同，实施数据共享和数据分析就需要对数据进行整合，有效的数据集成就显得十分重要。F15.数据立方体由3维构成，Z轴表示事实数据T16.数据是记录、描述和识别事物的符号，信息是经过某种提炼、加工和集成后的数据。知识是对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。T17.数据仓库中的数据的装载方式分为初始装载、增量装载、完全刷新这几种方式T18.商业智能系统与一般交易系统之间在系统设计上的主要区别在于：后者把结构强加于商务之上，一旦系统设计完毕，其程序和规则不会轻易改变；而前者则是一个学习型系统，能自动适应商务不断变化的要求F19.数据仓库“粒度”越细，记录数越少F20.数据仓库的数据量越大，其应用价值也越大T21.商务智能指收集、转换、分析和发布数据的过程，目的是为了更好的决策F22.数据仓库中间层OLAP服务器只能采用关系型OLAPT23.数据仓库中事实表所指的事实数据指的是不同维度在某一取值下的度量。F24.数据是商务智能系统的基础，只能包括企业内部数据，内部数据包括企业各种应用系统、办公自动化等产生的业务数据、文档等。F25.OLAP是用来协助企业对响应事件或事务的日常商务活动进行处理T26.维是人们观察数据的特定角度，是考虑问题时的一类属性一．选择题(第二次作业)1.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？BA．聚类B．关联规则发现C．分类D．自然语言处理2.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务CA.数据流挖掘B.频繁模式挖掘C.数据预处理D.分类和预测3.评价一个数据挖掘项目的成败，主要看数据挖掘的结果是否解决了CA.部署问题B.建模问题C.业务问题D.数据问题4.如下缺陷记录表，条件项i2，结果项i3，i5的支持度，置信度是AA.33.3%，50%B.41.7%，100%C.41.7%，83.4%D.33.3%，71.53%5.设X={1，2，3}是频繁项集，则可由X产生____个关联规则BA.7B.6C.5D.46.下面哪种不属于数据预处理的方法？BA.离散化B.估计遗漏值C.变量代换D.聚集7.如图统计数据其中a1~a6是对象Jack、Mary和Tim的属性，都为非对称二元变量，他们之间的距离用Jaccard系数计算分别为AA.d(Jack,Mary)=1/3,d(Jack,Tim)=2/3,d(Mary,Tim)=3/4B.d(Jack,Mary)=1/3,d(Jack,Tim)=1/3,d(Mary,Tim)=3/5C.d(Jack,Mary)=1/4,d(Jack,Tim)=2/5,d(Mary,Tim)=3/5D.d(Jack,Mary)=1/6,d(Jack,Tim)=1/3,d(Mary,Tim)=1/28.假设从潜在的顾客群中抽取一定数量的样本进行市场推广，发现有30%的响应者，而利用分类模型挑选同样数量的潜在客户进行推广，有65%的响应者，那么此分类模型的提升度为BA.lift=65%+30%=95%B.lift=65%/30%=2.17C.lift=65%-30%=35%D.lift=30%/65%=0.469.若关联规则U-V的支持度和置信度分别大于或等于用户指定的最小支持度minsupport和最小置信度minconfidence，则称关联规则U-V为CA.弱关联规则B.多层次关联规则C.强关联规则D.分离关联规则10.Hadoop重要的基础是？DA.非关系型数据库B.Hive数据仓库C.ETL工具D.MapReduce编程框架和分布式文件系统HDFS12.K—均值类别侦测要求输入的数据类型必须是AA.数值型B.逻辑型C.整型D.字符型13.（）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的DA.质心B.核心点C.边界点D.离群点14.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？BA.关联分析B.聚类C.隐马尔可夫链D.分类15.通过引进表示样本间相似程度的度量标准把性质相似的对象归为一类，这些度量标准称为聚类统计量，最常用的聚类统计量可分为（）和相似系数等，这些统计量处理数值型数据比较有效DA.无偏估计B.概率C.置信度D.距离16.下面选项中t不是s的子序列的是BA.s={2,4},{3,5,6},{8}t={2},{8}B.s={1,2},{3,4}t={1},{2}C.s={2,4},{2,4}t={2},{4}D.s={2,4},{3,5,6},{8}t={2},{3,6},{8}17.只有非零值才重要的二元属性被称作DA.计数属性B.对称属性C.离散属性D.非对称的二元属性18.在完成了构造和评价一个回归模型后，可以AA.以给定的自变量的值估计因变量的值B.估计未来所需样本的容量C.以给定的因变量的值估计自变量的值D.计算相关系数和判定系数19.Apriori算法的最基本思想是找出所有的频繁项集，然后由频繁项集产生强关联规则，这些规则必须满足BA.提升度大于1B.最小支持度和最小置信度C.置信度大于90%D.支持度大于25%二．判断题F1.离散属性总是具有有限个值T2.置信度反映了关联规则的正确程度，即购买了项集U中的商品的顾客同时也购买了V中商品的可能性（条件概率）有多大T3.频繁项集的任何子集也一定是频繁的，非频繁项集的超集一定是非频繁的T4.没有高质量的数据，就没有高质量的挖掘结果F5.Bayes法是一种在已知后验概率与类条件概率的情况下的模式