CDALEVELII建模分析师模拟题 第1页,共31页 版权所有,侵权必究 CDALEVELII建模分析师模拟题说明:第一、二、三部分为客观题,上机答题,考试时间90分钟;第四部分为案例操作题,闭卷,考试时间120分钟。考生自行携带电脑操作(安装好带有数据挖掘功能的软件如:SQL、SPSSMODELER、R、PYTHON、SAS、WEKA等,进行案例操作分析。案例数据将统一提供CSV文件)。一、单选题(共60题)1、答案(D)一般情况下,以下哪些指标不用于分类模型中的模型评价:A.正确率AccuracyB.覆盖率RecallfC.命中率PrecisionD.轮廓系数SilhouetteCoefficient解析:轮廓系数通常用于聚类模型的评价2、答案(A)一般情况下,以下哪些指标不用于聚类模型评价A.正确率AccuracyB.簇间不相似度C.ARID.轮廓系数SilhouetteCoefficient解析:正确率常用于分类模型3、答案(A)在使用ROC曲线判断模型的优劣时,以下哪个叙述是正确的?A.ROC曲线下方的面积越大,说明模型效果越好B.ROC曲线下方的面积越小,说明模型效果越好C.ROC曲线越靠近45度斜线,说明模型效果越好D.ROC曲线一般在45度斜线下方CDALEVELII建模分析师模拟题 第2页,共31页 版权所有,侵权必究 解析:ROC曲线下方的面积越大,说明模型效果越好4、答案(D)在使用线性回归模型(OLS)时,无需特别关注的情况是A.异方差性B.多重共线性C.残差自相关性D.查全率解析:查全率(Recall)是分类模型中的概念5、答案(C)以下模型中,不是线性回归模型(OLS)所衍生的模型的是?A.ridgeB.lassoC.K-MeansD.弹性网络解析:K-Means与OLS无关6、答案(D)为了判断某班级男女身高是否有差异,可以使用哪种方法?A.一元线性回归B.DW检验C.ANOVAD.T检验解析:两组样本均值检验,用T检验7、答案(B)混淆矩阵(confusionmatrix)昀可能用来检验哪种模型的结果?A.一元线性回归B.朴素贝叶斯CDALEVELII建模分析师模拟题 第3页,共31页 版权所有,侵权必究 C.K-MeansD.关联规则8、答案(A)混淆矩阵(confusionmatrix)()部分的数字越大越好?A.主对角线B.主对角线下方(不含主对角线)C.主对角线上方(不含主对角线)D.除主对角线外的所有区域9、答案(B)如果准备观察单维连续型数据的分布情况,优先使用以下哪种图形?A.条形图B.直方图C.散点图D.折线图解析:直方图用来观察分布情况,条形图不能。条形图可以用来观察类别型字段的分布情况。10、答案(B)两个点在标准坐标系上的绝对轴距总和指的是?A.欧氏距离B.曼哈顿距离C.汉明距离D.杰卡德距离解析:曼哈顿距离的定义11、答案(A)Apriori算法,昀有可能可用来解决以下哪个问题?A.电子商务网站向顾客推荐商品的广告B.信用卡欺诈识别CDALEVELII建模分析师模拟题 第4页,共31页 版权所有,侵权必究 C.电信用户离网预警D.预测GDP与工业产值之间的关系12、答案(C)广为流传的“啤酒与尿布”的故事,其背后的模型实际上是哪一类?A.分类(Classification)B.分群(Clustering)C.关联(Association)D.预测(Prediction)13、答案(A)使用历史数据构造训练(Train)集、验证(Validation)集和检验(Test)集后,使用哪个数据集来训练模型?A.训练(Train)集B.验证(Validation)集C.检验(Test)集D.以上都不用解析:用训练集来训练模型14、答案(A)数据清洗阶段,对于以下哪些处理方式可以用来处理缺失值?①用均值填充②转换为哑变量(0,1),代表数据是否缺失③使用回归模型去预测缺失值A.①②③B.②③C.①③D.①②解析:三种都可以用来处理缺失值CDALEVELII建模分析师模拟题 第5页,共31页 版权所有,侵权必究 15、答案(C)对于极值正规化(Min-MaxNormalization)及Z-分数正规化(Z-ScoreNormalization)的结果,以下判断正确的是A.经过Z-ScoreNormalization处理后的数据,不可能再有小于0的值B.经过Z-ScoreNormalization处理后的数据,不可能再有大于1的值C.经过Min-MaxNormalization处理后的数据,不可能再有小于0的值D.经过Min-MaxNormalization处理后的数据,可能还有大于1的值解析:Z-ScoreNormalization处理后的数据会在0附近,也有可能取大于1的值。Min-MaxNormalization处理后的数据,只可能在0和1之间16、答案(A)如果准备观察单维数据的异常值,优先使用以下哪种图形?A.箱形图B.甘特图C.雷达图D.K线图解析:箱形图用来观察数据的基本情况17、答案(B)在获取训练(Train)集时,一般使用什么方法?A.有放回抽样B.无放回抽样C.取数据的前60%部分D.取数据的后60%部分解析:无放回抽样,并且保证样本尽可能均匀18、答案(C)测试(Test)集通常用来A.计算模型中的参数B.预测未知数据CDALEVELII建模分析师模拟题 第6页,共31页 版权所有,侵权必究 C.比较不同模型的预测准确度,以便选择模型D.构建模型解析:测试集用来评价模型的19、答案(A)可以通过以下哪种方法,检验出多重共线性问题?A.方差膨胀因子(VIF)B.DW检验C.观察残差自相关图D.观察R2的大小20、答案(B)对于离群值,一般采用什么方法处理A.均值填充B.盖帽法填充C.众数填充D.中位数填充21、答案(A)如果某个特征(feature)有大量的异常值,那么可以采用以下哪些方法处理?①盖帽法②离散化③转化为分类变量A.①②③B.①②C.②③D.①③解析:三种方法都可以考虑22、答案(D)CDALEVELII建模分析师模拟题 第7页,共31页 版权所有,侵权必究 对于缺失值,以下说法正确的是?A.所有的有监督学习模型都不支持有缺失值的情况B.遇到有缺失值的情况,优先考虑删除变量C.对于分类数据,考虑使用均值填充D.对于连续型数据,考虑使用均值填充23、答案(C)缺失值处理属于的那一个阶段?A.业务理解B.建模预测C.数据清洗D.模型修正24、答案(D)在使用某些模型前,需要使用降维方法来减少变量个数,以下哪些模型不能用来降维?A.PCA(主成分分析)B.FA(因子分析)C.MDS(多维尺度分析)D.Apriori解析:粒子群算法是一种优化算法25、答案(A)以下哪个模型对变量是否标准化不敏感?A.决策树B.KNNC.K-MeansD.SVM解析:决策树对标准化不敏感,其它三项都用到距离,所以对标准化敏感26、答案(C)CDALEVELII建模分析师模拟题 第8页,共31页 版权所有,侵权必究 如果被解释变量是一个五分类离散变量,某个解释变量是连续变量,那么使用以下哪个方法或模型来确定这个连续变量是应该剔除还是保留?A.T检验B.PACF(偏自相关系数)C.ANOVAD.Huffman算法解析:ANOVA用来判断x是连续型,y是多分类的情况。T检验用来判断x是连续型,y是二分类的情况。PACF是时间序列中的方法,Huffman算法是一种用树来解决数据压缩问题的算法。27、答案(B)如果被解释变量和某一个解释变量都是连续型变量,那么可以使用以下哪种模型来判断这一个解释变量是否应当剔除或者保留?A.T检验B.相关系数C.K-MeansD.hash算法解析:x,y全都连续,用相关系数。28、答案(B)以下哪些算法是分类算法?A.DBSCANB.C4.5C.K-MeansD.EM29、答案(A)以下哪些分类方法可以较好地避免样本的不平衡问题?A.KNNB.SVMCDALEVELII建模分析师模拟题 第9页,共31页 版权所有,侵权必究 C.BayesD.神经网络30、答案(C)以下哪项关于决策树的说法是错误的?A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找昀佳决策树是NP完全问题31、答案(A)以下哪些算法是基于规则的分类器?A.C4.5B.KNNC.NaiveBayesD.ANN32、答案(A)以下关于人工神经网络(ANN)的描述错误的有?A.神经网络对训练数据中的噪声非常鲁棒B.可以处理冗余特征C.训练ANN是一个很耗时的过程D.至少含有一个隐藏层的多层神经网络33、答案(A)通过聚集多个分类器的预测来提高分类准确率的技术称为?A.组合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)CDALEVELII建模分析师模拟题 第10页,共31页 版权所有,侵权必究 34、答案(C)如下哪些不是昀近邻分类器的特点?A.它使用具体的训练实例进行预测,不必维护源自数据的模型B.分类一个测试样例开销很大C.昀近邻分类器基于全局信息进行预测D.可以生产任意形状的决策边界35、答案(D)用于分类与回归应用的主要算法有?A.Apriori算法、HotSpot算法B.RBF神经网络、K均值法、决策树C.K均值法、SOM神经网络D.决策树、BP神经网络、贝叶斯36、答案(B)下列不是SVM核函数的是?A.多项式核函数B.logistic核函数C.径向基核函数D.Sigmoid核函数37、答案(D)基于Bagging的集成学习,其代表算法有?A.AdaboostB.GBDTC.XGBOOSTD.随机森林38、答案(C)CDALEVELII建模分析师模拟题 第11页,共31页 版权所有,侵权必究 NaveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是?A.各类别的先验概率P(C)是相等的B.以0为均值,sqr(2)/2为标准差的正态分布C.特征变量X的各个维度是类别条件独立随机变量D.P(X|C)是高斯分布39、答案(C)多元线性回归分析中,ESS反映了?A.因变量观测值总变差的大小B.因变量回归估计值总变差的大小C.因变量观测值与估计值之间的总变差D.关于YX的编辑变化40、答案(C)在古典假设成立的条件下用OLS方法估计线性回归模型参数,则参数估计量具有()的统计性质。A.有偏特性B.非线性特性C.昀小方差特性D.非一致特性41、答案(C)在决策树算法中,ID3使用哪个度量来进行特征的选择?A.信息熵B.信息增益比C.信息增益D.Gini指数42、答案(B)卷积神经网络(CNN)中Dropout层的作用是?CDALEVELII建模分析师模拟题 第12页,共31页 版权所有,侵权必究 A.加快收敛速度B.防止过拟合C.丰富训练样本D.增强正样本43、答案(D)关于多层前向BP网络的特点,不正确的是?A.数学理论已证明其具有实现任何复杂非线性映射的功能,使得它适合求解内部机制复杂的问题B.能通过学习带正确答案的实例集自动提取合理的求解规则,既具有自学习能力C.具有一定的推广概况能力D.算法学习速度很快44、答案(A)对于神经网络的说法,下面正确的是?A.增加神经网络层数,可能会增加测试数据集的分类错误率B.减少神经网络层数,总是能减小测试数据集的分类错误