统计机器学习(StatisticalMachineLearning)陈明湖南师范大学数学与计算机科学学院2什么是机器学习“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。”“机器学习是对能通过经验自动改进的计算机算法的研究。”本书中的观点:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”什么是机器学习总结:人工智能的重要组成部分利用经验数据改善系统自身性能已广泛应用于多个领域;大数据分析网络搜索金融市场预测……为什么需要机器学习?美国航空航天局JPL实验室的科学家在《Science》(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,……,该领域在今后的若干年内将取得稳定而快速的发展Machinelearningformsthecoreofmaypresent-dayAIapplicationsGaryAnthes,FutureWatch:AIcomesofage,为什么需要机器学习?2004年,机器学习被MITTechnologyReview列入10EmergingTechnologiesthatwillChangeYourWorld2010年度图灵奖授予机器学习理论创始人、哈佛大学LeslieValiant教授2011年度图灵奖授予概率图模型奠基者、加州大学洛杉矶分校JudeaPearl教授图灵奖连续两年颁发给机器学习先驱开创者深度学习与机器学习深度学习(deeplearning)是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,本质上是机器学习中特征学习方法的一类。至今已有多种深度学习框架:深度神经网络,卷积神经网络,深度信念网络。已被应用于多个领域:计算机视觉,语音识别,自然语言处理等。大数据与机器学习机器学习几乎无处不在,即便我们没有专程调用它,也经常出现在大数据应用中。机器学习对大数据应用的贡献主要体现在:促进数据科学家们的多产性发现一些被忽视的方案上述价值来自于机器学习的核心功能:让分析算法无需人类干预和显式程序即可对最新数据进行学习。这就允许数据科学家们根据典型数据集创建一个模型,然后利用算法自动概括和学习这些范例和新的数据源。BooksandReferences主要参考书EthemAlpaydın著,范明等译,《机器学习导论》第2版,机械工业出版社,2014.更基础的参考书李航,《统计学习方法》,清华大学出版社,2012.罗杰斯,吉罗拉米著,郭茂祖等译,《机器学习基础教程》,机械工业出版社,2013其他更有难度的参考书迪达等著,李宏东等译,《模式分类》,机械工业出版社,2003TrevorHastie,RobertTibshirani,JeromeFriedman著,范明,柴玉梅,昝红英译,《统计学习基础—数据挖掘、推理与预测》,电子工业出版社,2004英文版《Theelementsofstatisticallearning》第2版,2015年出版西奥多里蒂斯等著,李晶皎等译,《模式识别(第四版)》,电子工业出版社,2010ChristopherM.Bishop《PatternRecognitionandMachineLearning》2006•视频教程斯坦福大学《机器学习》,网易公开课,主讲人:AndrewNg中国科学院《统计学习教程》主讲人:卿来云Resources:DatasetsUCIRepository:~mlearn/MLRepository.htmlUCIKDDArchive:::~delve/9Resources:JournalsJournalofMachineLearningResearchMachineLearningNeuralComputationNeuralNetworksIEEETransactionsonNeuralNetworksIEEETransactionsonPatternAnalysisandMachineIntelligenceAnnalsofStatisticsJournaloftheAmericanStatisticalAssociation...10Resources:ConferencesInternationalConferenceonMachineLearning(ICML)EuropeanConferenceonMachineLearning(ECML)NeuralInformationProcessingSystems(NIPS)UncertaintyinArtificialIntelligence(UAI)ComputationalLearningTheory(COLT)InternationalConferenceonArtificialNeuralNetworks(ICANN)InternationalConferenceonAI&Statistics(AISTATS)InternationalConferenceonPatternRecognition(ICPR)...11TrainingsetXNttt,r1}{xXnegativeisifpositiveisifxx01r1221xxxLectureNotesforEAlpaydın2010IntroductiontoMachineLearning2e©TheMITPress(V1.0)aSupervisedLearner1.Model:2.Lossfunction:3.Optimizationprocedure:|xgtttgrLE|,|xX13X|minarg*ELectureNotesforEAlpaydın2010IntroductiontoMachineLearning2e©TheMITPress(V1.0)WhyLearningisDifficult?Givenafiniteamountoftrainingdata,youhavetoderivearelationforaninfinitedomainInfact,thereisaninfinitenumberofsuchrelations三类基本的机器学习问题(1)模式分类问题:输出y是类别标号,两类情况下y={1,-1},预测函数称作指示函数(IndicatorFunction),损失函数定义见下式,使期望风险最小就是Bayes决策中使错误率最小。0(|)(,(|))1(|)yfLyfyfxxx三类基本的机器学习问题(2)回归问题:输出y是连续变量,它是x的函数,损失函数定义见下式:2)|(-))|(,(wfywfyLxx统计学习的基本方法有监督/无监督学习有监督(Supervised):分类、回归无监督(Unsupervised):概率密度估计、聚类、降维半监督(Semi-supervised):EM、Co-training其他学习方法增强学习(ReinforcementLearning)多任务学习(Multi-tasklearning)有监督学习标定的训练数据训练过程:根据目标输出与实际输出的误差信号来调节参数典型方法全局:BN,NN,SVM,DecisionTree局部:KNN、CBR(Case-basereasoning)S(x)=0ClassAS(x)0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentationA11,A12,…,A1mA21,A22,…,A2m……An1,An2,…,AnmninstancemattributesOutput---C1---C2---…---…---CnTraining√√……√Taska1,a2,…,am---?19无监督学习不存在标定的训练数据学习机根据外部数据的统计规律(e.g.Cohension&divergence)来调节系统参数,以使输出能反映数据的某种特性。典型方法K-means、SOM….示例:聚类A11,A12,…,A1mA21,A22,…,A2m……An1,An2,…,AnmninstancemattributesOutput---C1---C2---…---…---CnXX……Task半监督学习结合(少量的)标定训练数据和(大量的)未标定数据来进行学习典型方法Co-training、EM、Latentvariables….A11,A12,…,A1mA21,A22,…,A2m……An1,An2,…,AnmninstancemattributesOutput---C1---?---…---…---Cn√X……√Taska1,a2,…,am---?21其他学习方法增强学习(ReinforcementLearning):外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。附录、典型机器学习包介绍23典型的机器学习开发包OpenCV:MachineLearningLibrary介绍内容来自《OpenCV机器学习中文参考手册》Weka:Machinelearning/dataminingsoftwarewritteninJava介绍的PPT节选自E.Frank《MachineLearningwithWEKA》SVM开发包LIBSVMSVM-Light…………OpenCVstructureCXCOREbasicstructuresandalgoritms,XMLsupport,drawingfunctionsCVImageprocessingandvisionHighGUIGUI,ImageandVideoI/OMLMachineLearningalgorithmsCVCamvideostreamprocessingOpenCV-ML:Overview机器学习库(MLL)是一些用于分类、回归和数据聚类的类和函数通用类和函数CvStatModelNormalBayes分类器CvNormalBayesClassifierK近邻算法CvKNearest支持向量机CvSVM决策树CvDTreeSplitBoostingCvBoostRandomTreesCvRTreesExpectation-MaximizationCvEM神经网络CvANN_MLP使用前添加ml.lib及相应的头文件目录2020/4/2WEKA:thesoftwareByUniversityofWaikato,NewZealandMachinelearning/dataminingsoftwarewritteninJava(distributedundertheGNUPublicLicense)Usedforresearch,education,andapplicationsComplements“DataMining”byWitten&FrankMainfeatures:Comprehensivesetofdatapre-processingtools,learningalgorithmsandevaluationmethodsGraphicaluserinterfaces(incl.datavisualization)EnvironmentforcomparinglearningalgorithmsDownload-WEKAWebpagesofWEKAasbelow: