第一章统计学习方法概论提纲:1大机器学习•维基百科:•机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。提纲:1大网络教学信息•斯坦福机器学习••CMU机器学习课程•~epxing/Class/10715/•~epxing/Class/10708/视频•~epxing/Class/10701••提纲:1大相关学术文章下载资源•COLT和ICML(每年度的官网):~colt2009/proceedings.html•CV:•NIPS:•JMLR(期刊):提纲:1大机器学习•维基百科:•机器学习有下面几种定义:•“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。•“机器学习是对能通过经验自动改进的计算机算法的研究”。•“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”•英文定义:AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE.提纲:1大机器学习应用•数据挖掘•计算机视觉•自然语言处理•生物特征识别•搜索引擎•医学诊断•检测信用卡欺诈•证券市场分析•DNA序列测序•语音和手写识别•战略游戏•机器人提纲:1大Game•深蓝是并行计算的电脑系统,建基于RS/6000SP,另加上480颗特别制造的VLSI象棋芯片。下棋程式以C语言写成,运行AIX操作系统。1997年版本的深蓝运算速度为每秒2亿步棋,是其1996年版本的2倍。1997年6月,深蓝在世界超级电脑中排名第259位,计算能力为11.38gigaflops。提纲:1大Texttospeechandspeechrecognition提纲:1大Computervision提纲:1大•Genebioinformatics提纲:1大bioinformatics•Gene提纲:1大FinancialInformation提纲:1大RoboticControl提纲:1大DeepLearning提纲:1大aerospace提纲:1大机器学习的发展历程•“黑暗时代”,人工智能的诞生(1943年~1956年)•WarrenMcCulloch和WalterPitts在1943年发表了人工智能领域的开篇之作,提出了人工神经网络模型。•JohnvonNeumann。他在1930年加入了普林斯顿大学,在数学物理系任教,和阿兰·图灵是同事。•MarvinMinsky和DeanEdmonds建造第一台神经网络计算机。•1956年:JohnMcCarthy从普林斯顿大学毕业后去达特茅斯学院工作,说服了MarvinMinsky和ClaudeShannon在达特茅斯学院组织一个暑期研讨会,召集了对机器智能、人工神经网络和自动理论感兴趣的研究者,参加由IBM赞助的研讨会。提纲:1大机器学习的发展历程提纲:1大•新的方向:•集成学习•可扩展机器学习(对大数据集、高维数据的学习等)•强化学习•迁移学习•概率网络•深度学习机器学习的发展历程提纲:1大国内外的研究者•M.I.Jordan•AndrewNg•TommiJaakkola•DavidBlei•EricXing。。。•D.Koller•2001年IJCAI计算机与思维奖:TerryWinograd、DavidMarr、TomMitchell、RodneyBrooks等人之后的第18位获奖者•PeterL.Bartlett•J.D.Lafferty•国内:李航,周志华,杨强,王晓刚,唐晓鸥,唐杰,刘铁岩,何晓飞,朱筠,吴军,张栋,戴文渊,余凯,邓力,孙健。。。提纲:1大•卡内基梅隆大学的计算机科学学士学位,•麻省理工学院的电子工程和计算机科学硕士学位,•加州大学伯克利分校的计算机科学博士学位。•在斯坦福大学计算机科学和电子工程学系担任教授,讲授机器学习课程•吴恩达(AndrewNg)•硅谷人工智能实验室•北京深度学习实验室•北京大数据实验室国内外的研究者提纲:1大机器学习和数据挖掘的关系•机器学习是数据挖掘的重要工具。•数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。•机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。•数据挖掘试图从海量数据中找出有用的知识。•大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。提纲:1大机器学习和数据挖掘的关系提纲:1大机器学习的一个形象描述23提纲:1大为什么要研究大数据机器学习?•例“尿布→啤酒”关联规则•实际上,在面对少量数据时关联分析并不难,可以直接使用统计学中有关相关性的知识,这也正是机器学习界没有研究关联分析的一个重要原因。•关联分析的困难其实完全是由海量数据造成的,因为数据量的增加会直接造成挖掘效率的下降,当数据量增加到一定程度,问题的难度就会产生质变,•例如,在关联分析中必须考虑因数据太大而无法承受多次扫描数据库的开销、可能产生在存储和计算上都无法接受的大量中间结果等。提纲:1大机器学习相关学术期刊和会议•机器学习•学术会议:NIPS、ICML、ECML和COLT,•学术期刊:《MachineLearning》和《JournalofMachineLearningResearch》•数据挖掘•学术会议:SIGKDD、ICDM、SDM、PKDD和PAKDD•学术期刊:《DataMiningandKnowledgeDiscovery》和《IEEETransactionsonKnowledgeandDataEngineering》•人工智能•学术会议:IJCAI和AAAI、•数据库•学术会议:SIGMOD、VLDB、ICDE,•其它一些顶级期刊如•《ArtificialIntelligence》、•《JournalofArtificialIntelligenceResearch》、•《IEEETransactionsonPatternAnalysisandMachineIntelligence》、•《NeuralComputation》等也经常发表机器学习和数据挖掘方面的论文提纲:1大机器学习相关学术期刊和会议提纲:1大机器学习相关学术期刊和会议提纲:1大机器学习相关学术期刊和会议提纲:1大机器学习相关学术期刊和会议提纲:1大机器学习相关学术期刊和会议提纲:1大机器学习和统计学习•维基百科:•机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。提纲:1大统计学习和机器学习•BrendanO’Connor的博文Statisticsvs.MachineLearning,fight!,初稿是08年写的,或许和作者的机器学习背景有关,他在初稿中主要是贬低了统计学,思想和[1]有点类似,认为机器学习比统计学多了些AlgorithmModeling方面内容,比如SVM的Max-margin,决策树等,此外他认为机器学习更偏实际。但09年十月的时候他转而放弃自己原来的观点,认为统计才是realdeal:Statistics,notmachinelearning,istherealdeal,butunfortunatelysuffersfrombadmarketing.提纲:1大Glossary(RobertTibshiriani)network,graphsmodelweightsparameterslearningfittinggeneralizationtestsetperformancesupervisedlearningregression/classificationunsupervisedlearningdensityestimation,clusteringlargegrant=$1,000,000largegrant=$50,000niceplacetohaveameeting:Snowbird,Utah,FrenchAlpsniceplacetohaveameeting:LasVegasinAugust统计学习和机器学习提纲:1大统计学习和机器学习•---SimonBlomberg:•FromR’sfortunespackage:Toparaphraseprovocatively,‘machinelearningisstatisticsminusanycheckingofmodelsandassumptions’.•---AndrewGelman:•Inthatcase,maybeweshouldgetridofcheckingofmodelsandassumptionsmoreoften.Thenmaybewe’dbeabletosolvesomeoftheproblemsthatthemachinelearningpeoplecansolvebutwecan’t!提纲:1大统计学习和机器学习•研究方法差异•统计学研究形式化和推导•机器学习更容忍一些新方法•维度差异•统计学强调低维空间问题的统计推导(confidenceintervals,hypothesistests,optimalestimators)•机器学习强调高维预测问题•统计学和机器学习各自更关心的领域:•统计学:survivalanalysis,spatialanalysis,multipletesting,minimaxtheory,deconvolution,semiparametricinference,bootstrapping,timeseries.•机器学习:onlinelearning,semisupervisedlearning,manifoldlearn