机器学习第一章

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

MachineLearning(机器学习)回顾讲义1:机器学习的问题什么是机器学习?机器学习的应用?机器学习的组成?机器学习与其它领域讲义2:预测/分类的学习什么是机器学习•机器学习:通过数据进行经验计算来提高一些性能指标。DATA——ML——提高一些性能指标机器学习的关键性质1.存在一些“潜在模式”去学习——因此“性能指标”能被提高2.没有可以轻易编程的定义——因此“机器学习”是必要的3.不知道数据如何与模式相关——因此机器学习需要从一些“输入”中学习关键性质:能帮助用户决定是否使用机器学习趣味时间下列哪个选项最适合使用机器学习?1.预测女婴的下一次哭闹是否发生在偶数分钟里2.确定给定的图形中是否包含了一个周期3.决定是否给一些用户批准使用信用卡4.猜测地球在未来十年内是否会因核能的滥用而破坏参考答案:31.没有模式2.定义易编程3.模式:用户表现定义:不易编程数据:银行操作历史4.可以说至今没有足够数据机器学习的应用下列领域中哪一个不能使用机器学习?1.金融2.医学3.法律4.以上都不是参考答案:41.从数据中预测股票价格2.从数据中预测药物影响3.从数据中总结法律文本4.欢迎学习这个热门主题学习问题:比如信用使用批准表格信息年龄23性别女年收入新台币1,000,000居住年份1年工作年份0.5年短息债务新台币200,000需要学习的未知模式:“批准信用卡有利于银行吗?”规范学习问题基础标记(1)input:x∈X(用户申请)(2)output:y∈Y(批准信用卡的利/弊)(3)需要学习的未知模式←→目的函数:f:X→Y(理想的信用批准公式)(4)数据←→训练实例:D={(x1,y1),(x2,y2),…,(xn,yn)}(银行历史记录)(5)假设←→技能(有期望中良好性能的):g:X→Y(学习到的“公式的使用){(xn,yn)}来自f——ML——g信用批准的学习流图目的f未知(即没有易编程的定义)假设g≈f,但是很可能不同于f(当f未知时完美是“不可能的”)g看起来像什么?训练实例D:(x1,y1),…,(xn,yn)(银行历史记录)学习算法A未知目的函数f:x→y(理想的信用批准公式)最终假设g≈f(“学习过的”公式的使用)学习的模型假设g∈H=(hk),即批准需要满足以下条件:h1:年收入新台币800,000h2:债务新台币100,000(真的?)h3:工作年份≤2(真的?)假设集H:可以包含好的或坏的假设直到A选择了“最好的”一个作为g学习模型=A与H训练实例D:(x1,y1),…,(xn,yn)(银行历史记录)假设集H(候选公式集)最终假设g≈f(“学习过的”公式的使用)学习算法A机器学习的实际定义机器学习:使用数据去计算假设g来近似于目标f假设集H(候选公式集)训练实例D:(x1,y1),…,(xn,yn)(银行历史记录)学习算法A未知目的函数f:x→y(理想的信用批准公式)最终假设g≈f(“学习过的”公式的使用)讲义1:学习问题A采用D与H来获得g趣味时间如何使用下列4个集合来组成一个歌曲推荐的学习问题?S1=[0,100]S2=所有可能的(用户,歌曲)数据对S3=所有将用户因子&歌曲因子“相乘”的公式,并通过这些因子所有可能的联系进行索引S4=1,000,000个(用户,歌曲)数据对(1)S1=X,S2=Y,S3=H,S4=D(2)S1=Y,S2=X,S3=H,S4=D(3)S1=D,S2=H,S3=Y,S4=X(4)S1=X,S2=D,S3=Y,S4=H参考答案:2S4—AonS3—(g:S2→S1)目录讲义1:机器学习的问题什么是机器学习?机器学习的应用?机器学习的组成?机器学习与其它领域讲义2:预测/分类的学习机器学习与数据挖掘机器学习(ML)用数据计算近似于目标f的假设g数据挖掘(DM)_使用海量数据去寻找有趣的特征如果“有趣的特征”与“近似于目标的假设”相同——ML=DM(通常是KDD-CUP竞赛做的事)如果“有趣的特征”与“近似于目标的假设”相关——DM能帮助ML,反之亦然(经常,但不总是)传统数据挖掘依然致力于大型数据库中的高效计算事实上很难区分机器学习与数据挖掘机器学习与人工智能机器学习(ML)用数据计算近似于目标f的假设g人工智能(AI)_计算显示出智能行为的事物g≈f是显示出智能行为的事物——ML是实现AI的另一条途径例如下国际象棋:传统人工智能:生成关于游戏的树ML人工智能:“从棋盘数据中学习”机器学习是实现人工智能的一条可能途径机器学习与统计学机器学习(ML)用数据计算近似于目标f的假设g统计学用数据作出关于未知过程的推论g是一个推论结果;f是未知事物——统计学能被用于实现ML传统统计学仍然致力于通过数学假设来获取可证实的结果,并且不关注计算统计学中有许多对机器学习有用的工具趣味时间下列哪个断言不完全正确?(1)机器学习是实现人工智能的一条可能途径(2)机器学习,数据挖掘和统计学都需要数据(3)数据挖掘仅仅是机器学习的另一个名字(4)统计学能被用于实现数据挖掘参考答案:3虽然数据挖掘和机器学习确实有相当大的重叠部分,但因为焦点不同它们按理说是不同的。目录讲义1:机器学习的问题什么是机器学习?机器学习的应用?机器学习的组成?机器学习与其它领域讲义2:预测/分类的学习预测/分类的学习监督学习是告诉算法训练样本正确答案的机器学习问题,然后我们希望算法能依此处理更多样本。回到信用批准问题我们能使用什么假设集?假设集H(候选公式集)训练实例D:(x1,y1),…,(xn,yn)(银行历史记录)学习算法A未知目的函数f:x→y(理想的信用批准公式)最终假设g≈f(“学习过的”公式的使用)年龄23性别女年收入新台币1,000,000居住年份1年工作年份0.5年短息债务新台币200,000简单假设集:“感知器”x=(x1,x2,…,xd)表示“客户的特征”,计算一个加权“分数”并且批准信用,如果拒绝信用,如果y:{+1(好),-1(坏)},0忽略——线性公式h∈H是历史上被称之为“感知器”的假设年龄23年收入新台币1,000,000工作年份0.5年短息债务新台币200,000阈值diiixw1diiixw1阈值diiixwsignxh1)(()(阈值)感知器假设的矢量形式h(x))()())1()((())((11100xwsignxwsignxwsignxwsignTdiiidixwiidiii阈值阈值每个长序列w代表了一个假设h()与长序列x相乘——使用长序列版本来简化符号感知器h看起来像什么?二元感知器客户特征x:平面上的点(或R^d中的点)分类y:○(+1),×(-1)假设h:直线(或R^d中的超平面)——在一面的影响是正面的,在另一面就是负面的不同的直线分类不同的客户感知器←→线性(二元)分类器)()(22110xwxwwsignxh趣味时间考虑使用一个感知器来检测垃圾邮件。假设每封邮件由关键字的出现频率来代表,且输出+1表示一封垃圾邮件。下列哪个关键字在一个良好感知器的任务中能起非常正面的作用?(1)咖啡,茶,汉堡包,牛排(2)免费的,毒品,极好的,交易(3)机器,学习,统计学,教科书(4)国家的,台湾,大学,在线公开课参考答案:2正面加权关键字的出现增加了“垃圾邮件分数”,而这些关键字经常出现在垃圾邮件中。从H中选择gH=一切可能的感知器,g=?期望:g≈f(当f未知时很难)几乎必要的:g≈fonD,理想的g(xn)=f(xn)=yn困难:H有无限的规模思路:从一些g0开始,并“修正”它在D上的错误将用g0的权值矢量w0来代表g0感知器学习算法从一些w0(例如0)开始,并修正它在D上的错误t=0,1…(1)找出wt的一个错误称之为(2)尝试改正错误,通过…直到没有更多错误返回最后的w(称之为wpla)作为g就是这样!——承认错误等于改了一半)()()(,tntnyx)()()(tntnTtyxwsign)()(1tntnttxywwPLA的实际实现从一些w0(例如0)开始,并修正它在D上的错误t=0,1…(1)找出wt的下一个错误称之为(2)尝试改正错误,通过…直到完成一个没有遇到错误的完整周期接下来可以遵循朴素周期(1,…,N)或预先计算的随机周期)()()(,tntnyx)()()(tntnTtyxwsign)()(1tntnttxyww眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)初始眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)SeeingisBelieving药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)眼见为实药到病除,小于20步!!(注意:为了更好观察使xix0=1)

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功