1统计学习基础卿来云中国科学院研究生院信息学院lyqing@gucas.ac.cn/lyqing@jdl.ac.cn2概率vs.统计概率:研究随机事件出现的可能性的数学分支,描述非确定性(Uncertainty)的正式语言,是统计推断的基础概率:一个事件或事件集合出现的可能性基本问题:给定以一个数据产生过程,则输出的性质是什么统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲统计量:一个用以描述样本或总体性质的数值,如均值或方差基本问题:给定输出数据,我们可以得到该数据的产生过程的哪些信息3概率vs.统计数据产生过程观测到的数据概率统计推断4统计学习统计学≈根据数据进行推理的学科统计学习≈多元统计分析+计算统计学多元统计分析≈基于一个多元变量数据集,预测函数值计算统计学≈统计问题的计算方法(a.k.a.统计计算)+计算繁重的统计方法数据挖掘≈研究数据分析,尤其是大数据量/复杂的数据集5例:人脸形状(随机事件、概率与统计学习)ICCV2001:LearninginhomogeneousGibbsmodelsoffacesbyminimaxentropy1,1;,exp,,KjjjxypIFFIxyZF6统计学习的基本问题有监督/无监督学习有监督学习:回归、分类无监督学习:概率密度估计、聚类、降维增强学习模型选择模型评价:损失函数模型选择复杂性vs.推广性7课程目的为计算机专业的学生快速提供广泛的概率和统计背景概率统计统计学习为学习其他课程打好统计学基础机器学习数据挖掘模式识别人工智能…8数学基础的重要性研究数据分析必须打好概率和统计基础Usingfancytoolslikeneuralnets,boostingandsupportvectormachineswithoutunderstandingbasicstatisticslikedoingbrainsurgerybeforeknowinghowtouseaband-aid.9教材/参考书[Wasserman]LarryWasserman,AllofStatistics:AConciseCourseinStatisticalInference,SpringerPress,2004主要教材:内容很全,但有些部分篇幅略少,更偏向于从统计的角度讲述Chp1-13,Chp20,Chp23-24[HTF]TrevorHastie,RobertTibshirani,JeromeFriedman著,范明,柴玉梅,昝红英译,《统计学习基础—数据挖掘、推理与预测》,电子工业出版社,2004统计学习部分的主要教材:主要从机器学习的角度讲述Chp1-7[CB]GeorgeCasellaandRogerL.Berger,StatisticalInference,机械工业出版社,2002详尽的统计推断教材:可以作为[Wasserman]一书的补充Chp1-1010预修课程高等数学线性代数概率:有一定概率基础可复习任一本科概率论教材盛骤谢式千潘承毅,《概率论》,(浙江大学)编,高等教育出版社11课程内容(1)第一部分:概率基础知识概率理论随机变量及其概率分布常用的概率分布多元随机变量概率不等式和收敛性第二部分:统计基础知识统计基本知识非参数估计、Bootstrap、Jackknife参数估计假设检验12课程内容(2)第三部分:统计学习基本模型及理论统计学习概述线性回归概率密度估计核方法统计判决理论模型选择和模型评估第四部分:随机计算采样、MCMC(MonteCarloMarkovChain)13相关会议、刊物会议InternetConferenceonMachineLearningKDD(InternetConferenceonKnowledgeDiscoveryandDataMining)NIPS(NeuralInformationProcessingSystemsConference)IJCNN(InternetJointConferenceonNeuralNetworks)ArtificialIntelligenceandMachineLearningConferenceComputationalLearningTheory(COLT)…刊物MachineLearning(ML)JournalofMachineLearningResearchAnnalsofStatisticsDataMiningandKnowledgeDiscoveryIEEE-KDEIEEE-PAMIArtificialIntelligenceJournalofArtificialIntelligenceResearchComputationalIntelligenceNeuralComputationIEEE-NNResearch,InformationandComputation…14其他信息助教:杨涛ssss104@gmail.com课件网址作业和考试作业:40%非编程作业20%、编程作业(包括上机实验作业)20%每次作业留1-2周时间请按时交作业,鼓励讨论,但NOCOPY考试:闭卷期末考试:60%16其他课前预习课堂上预告下节课内容预习教材相应章节或相应的补充材料课后复习复习教材和课件,适当阅读课外材料下节课开始前,对上节课的内容都已经掌握讨论鼓励讨论:学得更快/更多、学习兴趣更高先独立解决问题,然后比较和讨论,最后提交的答案是自己的理解编写程序时,可以利用别人的代码,但需注明出处及自己的工作17作业从日常生活、学习或工作中找出1~2个与统计相关的有趣问题