机器学习算法PPT

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Numpy:科学计算库Pandas:数据分析处理库Matplotlib:数据可视化库Scikit-learn:机器学习库工资年龄额度40002520000800030700005000283500075003350000120004085000误差𝜺(𝒊)是独立并且具有相同的分布通常认为服从均值为0方差为𝜽𝟐的高斯分布Sigmoid函数1.计算已知类别数据集中的点与当前点的距离2.按照距离依次排序3.选取与当前点距离最小的K个点4.确定前K个点所在类别的出现概率5.返回前K个点出现频率最高的类别作为当前点预测分类。对于未知类别属性数据集中的点:概述:KNN算法本身简单有效,它是一种lazy-learning算法。分类器不需要使用训练集进行训练,训练时间复杂度为0。KNN分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为n,那么KNN的分类时间复杂度为O(n)。P(X,Y)=P(X)*P(Y)X和Y两个事件相互独立Log(XY)=Log(X)+Log(Y)H(X),H(Y)当成它们发生的不确定性P(几率越大)-H(X)值越小如:今天正常上课P(几率越小)-H(X)值越大如:今天没翻车熵=-𝑖=1𝑛𝑃𝑖ln(𝑃𝑖)Gini系数=谁当根节点呢?(14行数据,每个数据4个特征outlook,temperature,humidity,windy)ID3:信息增益C4.5:信息增益率CART:Gini系数评价函数:(希望它越小越好,类似损失函数了)预剪枝:在构建决策树的过程时,提前停止。后剪枝:决策树构建好后,然后才开始裁剪。叶子节点个数越多,损失越大dot-Tpdfiris.dot-oiris.pdfBootstraping:有放回采样Bagging:有放回采样n个样本一共建立分类器数据集(X1,Y1)(X2,Y2)到(Xn,Yn)Y为样本的类别:当X为正例时候Y=+1当X为负例时候Y=-1可推出找到一个条线(w和b),使得离该线最近的点能够最远argmax(w,b)使得min(最近的点到该线的距离)对于线(w,b)可以通过放缩使得其结果值|Y|=1(搞定目标函数)目标函数:𝑚𝑎𝑥𝑤,𝑏1||𝑊||且转换成求最小值𝑚𝑖𝑛𝑤,𝑏12𝑤2且拉格朗日乘子法标准格式:拉格朗日乘子法对偶问题:-分别对w和b求偏导,分别得到两个条件继续对求极大值条件:1极大值转换成求极小值样本:X1(3,3,1)X2(4,3,1)X3(1,1-1)求解:分别对参数进行求导得:=1.5=-1不满足条件最终的解应该为边界上的点=0=-2/13带入原式=-0.153=0.25=0带入原式=-0.25最小值在(0.25,0,0.25)处取得对于值(0.25,0,0.25)0.5X1+0.5X2-2=0为了解决该问题,引入松弛因子目标函数:当C趋近于无穷大时:意味着分类严格不能有错误当C趋近于很小的时:意味着可以有更大的错误容忍带入原式:仍然求对偶问题高斯核函数:CDALEVELⅠ案例试听CDALEVELⅠ案例试听CDALEVELⅠ案例试听为什么围棋选手不信阿法狗呢?结果呢?4:1李世石惨败人工智能的时代已经来临为什么人工智能技术这么厉害?CDALEVELⅠ案例试听CDALEVELⅠ案例试听无人驾驶汽车:1.物体检测2.行人检测3.标志识别4.速度识别。。。黑科技:ImageTransferContent+Style=Interestingthing(假设我们有一系列的标签:狗,猫,汽车,飞机。。。)猫一张图片被表示成三维数组的形式,每个像素的值从0到255例如:300*100*31.收集数据并给定标签2.训练一个分类器3.测试,评估1.计算已知类别数据集中的点与当前点的距离2.按照距离依次排序3.选取与当前点距离最小的K个点4.确定前K个点所在类别的出现概率5.返回前K个点出现频率最高的类别作为当前点预测分类。对于未知类别属性数据集中的点:概述:KNN算法本身简单有效,它是一种lazy-learning算法。分类器不需要使用训练集进行训练,训练时间复杂度为0。KNN分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为n,那么KNN的分类时间复杂度为O(n)。K值的选择,距离度量和分类决策规则是该算法的三个基本要素问题:该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数解决:不同的样本给予不同权重项10类标签50000个训练数据10000个测试数据大小均为32*32记录所有训练数据对于每一个测试数据找出与其L1距离最小的样本的标签,作为它的标签1.对于距离如何设定?2.对于K近邻的K该如何选择?3.如果有的话,其它的超参数该怎么设定呢?多次用测试数据试验,找到做好的一组参数组合?错误的的想法,测试数据只能最终用验证集用来调节参数交差验证1.选取超参数的正确方法是:将原始训练集分为训练集和验证集,我们在验证集上尝试不同的超参数,最后保留表现最好那个2.如果训练数据量不够,使用交叉验证方法,它能帮助我们在选取最优超参数的时候减少噪音。3.一旦找到最优的超参数,就让算法以该参数在测试集跑且只跑一次,并根据测试结果评价算法。4.最近邻分类器能够在CIFAR-10上得到将近40%的准确率。该算法简单易实现,但需要存储所有训练数据,并且在测试的时候过于耗费计算能力5.最后,我们知道了仅仅使用L1和L2范数来进行像素比较是不够的,图像更多的是按照背景和颜色被分类,而不是语义主体分身。1.预处理你的数据:对你数据中的特征进行归一化(normalize),让其具有零平均值(zeromean)和单位方差(unitvariance)。2.如果数据是高维数据,考虑使用降维方法,比如PCA3.将数据随机分入训练集和验证集。按照一般规律,70%-90%数据作为训练集4.在验证集上调优,尝试足够多的k值,尝试L1和L2两种范数计算方式。(不同的变换和原图具有相同的L2距离)每个类别的得分(32x32x3)权重正则化惩罚项多类别分类Softmax的输出是概率Softmax的输出(归一化的分类概率)损失函数:交叉熵损失(cross-entropyloss)被称作softmax函数其输入值是一个向量,向量中元素为任意实数的评分值输出一个向量,其中每个元素值在0到1之间,且所有元素之和为1Bachsize通常是2的整数倍(32,64,128)训练网络时的LOSS值视化结果训练网络时的LOSS值视化结果0.4加法门单元:均等分配MAX门单元:给最大的乘法门单元:互换的感觉线性方程:非线性方程:单层的神经网络:双层的神经网络:正则化项在神经网络中的重要作用越多的神经元,就越能够表达能复杂的模型全零值初始化?两个特征之间的协方差协方差矩阵这其实是在平面上对一个轴进行的拉伸变换(如蓝色的箭头所示),在图中,蓝色的箭头是一个最主要的变化方向(变化方向可能有不止一个),如果我们想要描述好一个变换,那我们就描述好这个变换主要的变化方向就好了。反过头来看看之前特征值分解的式子,分解得到的Σ矩阵是一个对角阵,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)继续看这个矩阵还可以发现一些有意思的东西,首先,左奇异向量的第一列表示每一个词的出现频繁程度,虽然不是线性的,但是可以认为是一个大概的描述,比如book是0.15对应文档中出现的2次,investing是0.74对应了文档中出现了9次,rich是0.36对应文档中出现了3次;其次,右奇异向量中一的第一行表示每一篇文档中的出现词的个数的近似,比如说,T6是0.49,出现了5个词,T2是0.22,出现了2个词。

1 / 174
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功