中国科学院研究生院课程编号:712008Z试题专用纸课程名称:机器学习任课教师:卿来云———————————————————————————————————————————————姓名学号成绩1.判断题(20分,每小题2分)(1)给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。(T)(2)当训练数据较少时更容易发生过拟合。(T)(3)回归函数A和B,如果A比B更简单,则A几乎一定会比B在测试集上表现更好。(F)(4)在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。(T)(5)在AdaBoost算法中,所有被错分的样本的权重更新比例相同。(T)(6)Boosting的一个优点是不会过拟合。(F)(7)梯度下降有时会陷于局部极小值,但EM算法不会。(F)(8)SVM对噪声(如来自其他分布的噪声样本)鲁棒。(F)(9)Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。(F)(10)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso模型计算量小,且Lasso也可以实现特征选择。(T)2、logistic回归模型。(20分,每小题10分)我们对如图1(a)所示的数据采用简化的线性logistic回归模型进行两类分类,即()()()121122112211|,,1expYwwgwxwxwxwx==+=+−−xP。(为了简化,我们不采用偏差0w。)训练数据可以被完全分开(训练误差为0,如图1(b)所示的L1)。共3页第1页图1(a)2维训练数据。图1(b)数据点可以被L1(实线)。L2、L3和L4是另外几个可能的决策(1)考虑一个正则化的方法,即最大化()21221log|,,2NiiiCy=−∑xP。注意只有2w被惩罚。则当C很大时,如图1(b)所示的4个决策边界中,哪条线可能是有该正则方法得到的?L2、L3和L4可以通过正则2w得到吗?答:L2不可以。当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到;L3可以。w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log概率变小(有被错分的样本);L4不可以。当C足够大时,我们会得到完成垂直的决策边界(线x1=0或x2轴)。L4跑到了x2轴的另一边使得其结果比其对边的结果更差。当中等程度的正则时,我们会得到最佳结果(w2较小)。图中的L4不是最佳结果因此不可能为惩罚w2得到;(2)如果我们将正则项给出L1范式,即最大化()()12121log|,,2NiiiCy=−+∑xP。则随着C增大,下面哪种情形可能出现(单选)?(a)1w将变成0,然后2w也将变成0。(T)(b)1w和2w将同时变成0。(c)2w将变成0,然后1w也将变成0。(d)两个权重都不会变成0,只是随着C的增大而减小0。该数据可以被完全正确分类(训练误差为0),且仅看x2的值(w1=0)就可以得到。虽然最佳分类器w1可能非0,但随着正则量增大w1会很快接近0。L1正则会使得w1完全为0。随着C的增大,最终w2会变成0。3、产生式模型和判别式模型。(16分,每小题8分)考虑两个分类器:1)核函数取二次多项式的SVM分类器和2)没有约束的高斯混合模型(每个类别为一个高斯模型)。我们对2R空间上的点进行两类分类。假设数据完全可分,SVM分类器中不加松弛惩罚项,并且假设有足够多的训练数据来训练高斯模型的协方差。(1)这两个分类器的VC维相同。(判断正误,并给出简短理由)(T)因此两个分类器的决策边界都为二次函数,复杂度相同。(2)假设我们估计两个分类器的结构风险值,该值为预测误差的上界。则这连个分类器中哪个的结构风险值更小一些?给出简短理由。SVM可能会得到更好的结果。虽然两个分类器的复杂度相同,但SVM对训练误差做优化从而得到更低(或相同)的值。4、SVM。(16分,每小题8分)我们采用两个SVM分类器对2R空间上的点进行两类分类,这两个分类器的不同在于核函数不同。其中分类器1采用的核函数为()1,TK′′=xxxx,分类器2采用的核函数为()()()2,Kpp′′=xxxx,其中()px为根据其他方法估计得到的概率密度函数。(1)采用核函数2K的分类器2的VC维是多少?特征空间为1维(将任意点x映射成非负数p(x)),因此VC维是2。.(2)如果两个分类器都嫩对N个训练数据得到0训练误差,则哪个分类器会有较好的推广性能?给出简短理由。分类器1的VC维为3,而分类器2的VC维为2,因此分类器1更复杂。当训练误差相同时,分类器2得到的预测误差的界更小,从而其推广性更好。共3页第2页5、Boosting。(28分,每小题7分)考虑如下图2所示的训练样本,其中’X’和’O’分别表示正样本和负样本。我们采用AdaBoost算法对上述样本进行分类。在Boosting的每次迭代中,我们选择加权错误率最小的弱分类器。假设采用的弱分类器为平行两个坐标轴的线性分类器。图2:训练样本(1)在图2中标出第一次迭代选择的弱分类器(L1),并给出决策面的‘+’和‘-’面。(2)在图2中用圆圈标出在第一次迭代后权重最大的样本,其权重是多少?(3)第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少?(4)强分类器为弱分类器的加权组合。则在这些点中,存在被经过第二次迭代后的强分类器错分的样本吗?给出简短理由。共3页第3页