【奥鹏】-[南开大学]《数据科学导论》19秋期末考核试卷总分:100得分:100第1题,某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。A、产量每增加一台,单位成本增加100元B、产量每增加一台,单位成本减少1.2元C、产量每增加一台,单位成本平均减少1.2元D、产量每增加一台,单位平均增加100元正确答案:C第2题,变量之间的关系一般可以分为确定性关系与()。A、非确定性关系B、线性关系C、函数关系D、相关关系正确答案:A第3题,根据映射关系的不同可以分为线性回归和()。A、对数回归B、非线性回归C、逻辑回归D、多元回归正确答案:B第4题,K-means聚类适用的数据类型是()。A、数值型数据B、字符型数据C、语音数据D、所有数据正确答案:A第5题,聚类是一种()。A、有监督学习B、无监督学习C、强化学习D、半监督学习正确答案:B第6题,在一元线性回归模型中,残差项服从()分布。A、泊松B、正态C、线性D、非线性正确答案:B第7题,利用最小二乘法对多元线性回归进行参数估计时,其目标为()。A、最小化方差#最小化标准差B、最小化残差平方和C、最大化信息熵正确答案:C第8题,例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()A、简单函数变换B、规范化C、属性构造D、连续属性离散化正确答案:B第9题,数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A、异常值B、缺失值C、不一致的值D、重复值正确答案:C第10题,单层感知机是由()层神经元组成。A、一B、二C、三D、四正确答案:B第11题,BFR聚类用于在()欧氏空间中对数据进行聚类A、高维B、中维C、低维D、中高维正确答案:A第12题,聚类的最简单最基本方法是()。A、划分聚类B、层次聚类C、密度聚类D、距离聚类正确答案:A第13题,只有非零值才重要的二元属性被称作:(),其中购物篮数据就属于这种属性。A、计数属性B、离散属性C、非对称的二元属性#对称属性正确答案:C第14题,单层感知机拥有()层功能神经元。A、一B、二C、三D、四正确答案:A第15题,通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A、简单函数变换B、规范化C、属性构造D、连续属性离散化正确答案:C第16题,在回归分析中,自变量为(),因变量为()。A、离散型变量,离散型变量B、连续型变量,离散型变量C、离散型变量,连续型变量D、连续型变量,连续型变量正确答案:D第17题,置信度(confidence)是衡量兴趣度度量()的指标。A、简洁性B、确定性C、实用性D、新颖性正确答案:B第18题,数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()A、普通值B、异常值C、不一致的值D、重复值正确答案:A第19题,具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A、1,线性B、2,线性C、1,非线性D、2,非线性正确答案:A第20题,以下哪一项不属于数据变换()A、简单函数变换B、规范化C、属性合并D、连续属性离散化正确答案:C第21题,Apriori算法的计算复杂度受()影响。A、支持度阈值B、项数C、事务数D、事务平均宽度正确答案:A,B,C,D第22题,层次聚类的方法是()A、聚合方法B、分拆方法C、组合方法D、比较方法正确答案:A,B第23题,多层感知机的学习过程包含()。A、信号的正向传播B、信号的反向传播C、误差的正向传播D、误差的反向传播正确答案:A,D第24题,K-means聚类中K值选取的方法是()。A、密度分类法B、手肘法C、大腿法D、随机选取正确答案:A,B第25题,下面例子属于分类的是()A、检测图像中是否有人脸出现B、对客户按照贷款风险大小进行分类C、识别手写的数字D、估计商场客流量正确答案:A,B,C第26题,关联规则的评价度量主要有:()。A、支持度B、置信度C、准确率D、错误率正确答案:A,B第27题,k近邻法的基本要素包括()。A、距离度量B、k值的选择C、样本大小D、分类决策规则正确答案:A,B,D第28题,什么情况下结点不用划分()A、当前结点所包含的样本全属于同一类别B、当前属性集为空,或是所有样本在所有属性上取值相同C、当前结点包含的样本集为空D、还有子集不能被基本正确分类正确答案:A,B,C第29题,系统日志收集的基本特征有()A、高可用性B、高可靠性C、可扩展性D、高效率正确答案:A,B,C第30题,下列选项是BFR的对象是()A、废弃集B、临时集C、压缩集D、留存集正确答案:A,C,D第31题,对于多层感知机,()层拥有激活函数的功能神经元。A、输入层B、隐含层C、输出层正确答案:B,C第32题,一元回归参数估计的参数求解方法有()。A、最大似然法B、距估计法C、最小二乘法D、欧式距离法正确答案:A,B,C第33题,数据科学具有哪些性质()A、有效性B、可用性C、未预料D、可理解正确答案:A,B,C,D第34题,聚类的主要方法有()。A、划分聚类B、层次聚类C、密度聚类D、距离聚类正确答案:A,B,C第35题,相关性的分类,按照相关的方向可以分为()。A、正相关B、负相关C、左相关D、右相关正确答案:A,B第36题,交叉表可以帮助人们发现变量之间的相互作用。T、对F、错正确答案:T第37题,标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。T、对F、错正确答案:F第38题,关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。T、对F、错正确答案:T第39题,当特征为离散型时,可以使用信息增益作为评价统计量。T、对F、错正确答案:T第40题,给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。T、对F、错正确答案:F第41题,不满足给定评价度量的关联规则是无趣的。T、对F、错正确答案:F第42题,两个对象越相似,他们的相异度就越高。T、对F、错正确答案:F第43题,决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布T、对F、错正确答案:T第44题,特征的信息增益越大,则其越不重要。T、对F、错正确答案:F第45题,信息熵越小,样本结合的纯度越低T、对F、错正确答案:F第46题,如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。T、对F、错正确答案:T第47题,EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。T、对F、错正确答案:T第48题,当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。T、对F、错正确答案:F第49题,多元线性回归模型中,标准化偏回归系数没有单位。T、对F、错正确答案:T第50题,决策树分类时将该结点的实例强行分到条件概率大的那一类去T、对F、错正确答案:T第51题,每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。T、对F、错正确答案:T第52题,K均值(K-Means)算法是密度聚类。T、对F、错正确答案:F第53题,关联规则可以用枚举的方法产生。T、对F、错正确答案:T第54题,获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。T、对F、错正确答案:F第55题,啤酒与尿布的故事是聚类分析的典型实例。T、对F、错正确答案:F第56题,决策树的基本组成由结点和有向边组成,其中结点分为哪两种类型和代表含义是什么?以及决策树的基本思想?正确答案:第57题,单层感知机和多层感知机分别解决的是哪类问题?正确答案:第58题,什么是神经网络?神经网络中最基本的成分是什么?正确答案: