中科院研究生院机器学习试卷(含答案)

zzakutus
1 ℃
2019-11-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

中国科学院研究生院课程编号：712008Z试题专用纸课程名称：机器学习任课教师：卿来云———————————————————————————————————————————————姓名学号成绩1.判断题（20分，每小题2分）（1）给定n个数据点，如果其中一半用于训练，另一半用于测试，则训练误差和测试误差之间的差别会随着n的增加而减小。（T）（2）当训练数据较少时更容易发生过拟合。（T）（3）回归函数A和B，如果A比B更简单，则A几乎一定会比B在测试集上表现更好。（F）（4）在核回归中，最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。（T）（5）在AdaBoost算法中，所有被错分的样本的权重更新比例相同。（T）（6）Boosting的一个优点是不会过拟合。（F）（7）梯度下降有时会陷于局部极小值，但EM算法不会。（F）（8）SVM对噪声（如来自其他分布的噪声样本）鲁棒。（F）（9）Boosting和Bagging都是组合多个分类器投票的方法，二者都是根据单个分类器的正确率决定其权重。（F）（10）在回归分析中，最佳子集选择可以做特征选择，当特征数目较多时计算量大；岭回归和Lasso模型计算量小，且Lasso也可以实现特征选择。（T）2、logistic回归模型。（20分，每小题10分）我们对如图1(a)所示的数据采用简化的线性logistic回归模型进行两类分类，即()()()121122112211|,,1expYwwgwxwxwxwx==+=+−−xP。（为了简化，我们不采用偏差0w。）训练数据可以被完全分开（训练误差为0，如图1(b)所示的L1）。共3页第1页图1(a)2维训练数据。图1(b)数据点可以被L1（实线）。L2、L3和L4是另外几个可能的决策（1）考虑一个正则化的方法，即最大化()21221log|,,2NiiiCy=−∑xP。注意只有2w被惩罚。则当C很大时，如图1(b)所示的4个决策边界中，哪条线可能是有该正则方法得到的？L2、L3和L4可以通过正则2w得到吗？答：L2不可以。当正则w2时，决策边界对x2的依赖越少，因此决策边界变得更垂直。而图中的L2看起来不正则的结果更水平，因此不可能为惩罚w2得到；L3可以。w2^2相对w1^2更小（表现为斜率更大），虽然该决策对训练数据的log概率变小（有被错分的样本）；L4不可以。当C足够大时，我们会得到完成垂直的决策边界（线x1=0或x2轴）。L4跑到了x2轴的另一边使得其结果比其对边的结果更差。当中等程度的正则时，我们会得到最佳结果（w2较小）。图中的L4不是最佳结果因此不可能为惩罚w2得到；（2）如果我们将正则项给出L1范式，即最大化()()12121log|,,2NiiiCy=−+∑xP。则随着C增大，下面哪种情形可能出现（单选）？(a)1w将变成0，然后2w也将变成0。(T)(b)1w和2w将同时变成0。(c)2w将变成0，然后1w也将变成0。(d)两个权重都不会变成0，只是随着C的增大而减小0。该数据可以被完全正确分类（训练误差为0），且仅看x2的值（w1=0）就可以得到。虽然最佳分类器w1可能非0，但随着正则量增大w1会很快接近0。L1正则会使得w1完全为0。随着C的增大，最终w2会变成0。3、产生式模型和判别式模型。（16分，每小题8分）考虑两个分类器：1)核函数取二次多项式的SVM分类器和2)没有约束的高斯混合模型（每个类别为一个高斯模型）。我们对2R空间上的点进行两类分类。假设数据完全可分，SVM分类器中不加松弛惩罚项，并且假设有足够多的训练数据来训练高斯模型的协方差。（1）这两个分类器的VC维相同。（判断正误，并给出简短理由）（T）因此两个分类器的决策边界都为二次函数，复杂度相同。（2）假设我们估计两个分类器的结构风险值，该值为预测误差的上界。则这连个分类器中哪个的结构风险值更小一些？给出简短理由。SVM可能会得到更好的结果。虽然两个分类器的复杂度相同，但SVM对训练误差做优化从而得到更低（或相同）的值。4、SVM。（16分，每小题8分）我们采用两个SVM分类器对2R空间上的点进行两类分类，这两个分类器的不同在于核函数不同。其中分类器1采用的核函数为()1,TK′′=xxxx，分类器2采用的核函数为()()()2,Kpp′′=xxxx，其中()px为根据其他方法估计得到的概率密度函数。（1）采用核函数2K的分类器2的VC维是多少？特征空间为1维（将任意点x映射成非负数p(x)），因此VC维是2。.（2）如果两个分类器都嫩对N个训练数据得到0训练误差，则哪个分类器会有较好的推广性能？给出简短理由。分类器1的VC维为3，而分类器2的VC维为2，因此分类器1更复杂。当训练误差相同时，分类器2得到的预测误差的界更小，从而其推广性更好。共3页第2页5、Boosting。（28分，每小题7分）考虑如下图2所示的训练样本，其中’X’和’O’分别表示正样本和负样本。我们采用AdaBoost算法对上述样本进行分类。在Boosting的每次迭代中，我们选择加权错误率最小的弱分类器。假设采用的弱分类器为平行两个坐标轴的线性分类器。图2：训练样本（1）在图2中标出第一次迭代选择的弱分类器（L1），并给出决策面的‘+’和‘-’面。（2）在图2中用圆圈标出在第一次迭代后权重最大的样本，其权重是多少？（3）第一次迭代后权重最大的样本在经过第二次迭代后权重变为多少？（4）强分类器为弱分类器的加权组合。则在这些点中，存在被经过第二次迭代后的强分类器错分的样本吗？给出简短理由。共3页第3页