《基于R的统计分析与数据挖掘》课程教学大纲课程代码:090542009课程英文名称:RLanguageandDataMining课程总学时:32讲课:32实验:0上机:0适用专业:应用统计学大纲编写(修订)时间:2017.6一、大纲使用说明(一)课程的地位及教学目标本课程是应用统计学专业的一门专业选修课,通过本课程的学习,可以使学生学会应用R语言进行分析和处理数据的方法,能够从大量数据中揭示其隐含的内在规律、发掘有用的信息、进行科学的推断与决策。本课程为学生学习新知识和毕业后从事各项工作打下良好的基础。(二)知识、能力及技能方面的基本要求1.知识方面的基本要求:通过本科程的学习,使学生掌握:(1)要求学生了解R语言的基本知识,学会如何应用R语言对已获取的数据进行加工处理,如何对实际问题进行定量分析,以及如何解释分析的结果;(2)掌握几种常用数据分析方法的统计思想及基本步骤,且能够利用R语言,较熟练地解决实际问题中的数据挖掘问题。2.能力方面的基本要求:通过各个教学环节逐步培养学生的抽象思维能力、逻辑推理能力和自学能力,培养学生综合运用所学知识去分析解决实际问题的意识和能力。3.技能方面的基本要求:通过本课程的学习,使学生(1)对于已获得的数据,能够通过R语言描述数据的分布及其数字特征;(2)能够利用R语言建立线性回归模型分析和预测;(3)能利用R语言比较不同数据之间的差异,并且能够进行分类、判别;(4)能利用R语言处理高维数据;(5)能够利用R语言建立模型对时间序列数据进行分析和预测。(三)实施说明1.本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写的。2.课时分配仅供参考。3.建议本课程采用课堂讲授、讨论相结合的方法和采用多媒体等现代化手段开展教学,通过习题课和讨论等方式强化重点,通过分散难点,使学生循序渐进的掌握难点。(四)对先修课的要求本课的先修课程:概率论与数理统计。(五)对习题课、实践环节的要求1.对习题课的要求:建议根据需要和教学重点、难点安排1次2学时的习题课。突出R语言应用过程中的技巧和解决学生使用R语言过程中突出的问题。2.对实践环节的要求:采用随堂多媒体课件及R语言软件的演示方式。课后学生自行完成数据挖掘的分析实验。(六)课程考核方式1.考核方式:采用五级制考查方式考核2.考核目标:重点考查学生数据分析的基本理论知识的掌握情况和分析问题解决问题的能力3.成绩构成:平时成绩40%;期末成绩60%;(1)平时成绩构成:出勤40%;平时作业40%;课堂表现20%。(2)期末成绩:考核形式为开卷笔试。(七)参考书目《R语言统计入门》,PeterDalgaard编著,人民邮电出版社,2014《R语言实战:编程基础、统计分析与数据挖掘宝典》,李倩星编,电子工业出版社,2016《用商业案例学R语言数据挖掘》,经管之家主编,电子工业出版社,2017二、中文摘要《基于R的统计分析与数据挖掘》是应用统计学专业的专业选修课。本课程共32学时,主要教学内容包括数据的描述性分析、线性回归分析、方差分析、判别分析、主成分分析、聚类分析、时间序列分析。通过本门课程的学习,学生可以初步掌握R语言进行数据挖掘的基本方法,培养他们解决实际问题的能力。使学生熟练掌握R语言及数据挖掘的基本方法和基本技能,培养学生分析问题和解决问题的能力,为学生今后开展初步的科研工作和继续深造提供基本知识。三、课程学时分配表序号教学内容学时讲课实验上机1数据描述性分析44001.1一维数据的数字特征1001.2数据的分布11.3多维数据的数字特征及相关分析2002线性回归分析66002.1线性回归模型及其参数估计2002.2统计推断与统计预测2002.3残差分析、回归方程的选取2003方差分析44003.1单因素方差分析2003.2两因素等重复试验下的方差分析1003.3两因素非重复试验下的方差分析1004主成分分析44004.1主成分分析基本思想、数学模型2004.2主成分的推导,求主成分的基本步骤2005判别分析:44005.1判别分析中所使用的几种判别尺度的定义和基本性质1005.2距离判别法,Bayes判别法3006聚类分析44006.1距离的定义;快速聚类法;2006.2谱系聚类法;2007时间序列分析44007.1时间序列模型及平滑方法2007.2ARMA模型2008习题课2学时2200合计323200四、教学内容及基本要求第1部分数据描述性分析总学时(单位:学时):4讲课:4实验:0上机:0第1.1部分一维数据的数字特征(讲课1学时)具体内容:1)要求学生了解数据分析的基本内容及应用领域与作用;2)掌握数据的数字特征与分布特征的描述与分析,熟练掌握常用的统计量如:样本均值、样本协方差和方差以及样本相关系数等。第1.2部分数据的分布(讲课1学时)具体内容:1)了解常用分布;2)理解分布的拟合及检验方法。第1.3部分多维数据的数字特征及相关分析(讲课2学时)具体内容:了解多元正态分布及其性质。重点:一维数据的数字特征与分布特征的描述与分析;难点:高维数据的数字特征的描述与分析。习题:一维数据的数字特征计算,画分布图,求相关系数。第2部分线性回归分析总学时(单位:学时):6讲课:6实验:0上机:0第2.1部分线性回归模型及其参数估计(讲课2学时)具体内容:1)要求学生了解建立回归方程的基本假设;2)掌握线性回归模型中参数估计的方法;3)了解估计的基本性质。第2.2部分统计推断与统计预测(讲课2学时)具体内容:1)理解统计推断的意义;2)掌握回归方程有关的显著性的检验;3)会进行相关的统计预测第2.3部分残差分析、回归方程的选取(讲课2学时)具体内容:1)会应用残差分析分析回归模型;2)掌握回归方程的选取方法,并能运用R语言实现有关回归过程的分析。重点:线性回归模型的建模的步骤;难点:逐步回归方法。习题:建立线性回归模型,并进行显著性检验,回归变量的选择。第3部分方差分析总学时(单位:学时):4讲课:4实验:0上机:0第3.1部分单因素方差分析(讲课2学时)具体内容:1)要求学生了解方差分析的基本思想;2)掌握单因素方差分析模型及相关的统计推断方法。第3.2部分两因素等重复试验下的方差分析(讲课1学时)具体内容:掌握两因素等重复试验下模方差分析型及相关的统计推断方法。第3.3部分两因素非重复试验下的方差分析(讲课1学时)具体内容:掌握两非重复试验下的方差分析模型及相关的统计推断方法。重点:两因素方差分析方法;难点:有交互作用时的两因素方差分析方法。习题:对实际数据进行单因素方差分析,两因素等重复试验下的方差分析等。第4部分主成分分析总学时(单位:学时):4讲课:4实验:0上机:0第4.1部分主成分分析基本思想、数学模型(讲课2学时)具体内容:1)要求学生了解主成分分析的统计思想和实际意义;2)掌握其数学模型和二维空间上的几何意义。第4.2部分主成分的推导主成分的基本步骤(讲课2学时)具体内容:1)熟练掌握主成分的推导步骤及其重要的基本性质;2)能够利用计算软件,自己解决实际问题并给出分析报告;3)了解典型相关分析的基本思想,会用典型相关分析方法处理实际问题。重点:主成分分析方法的理论及性质;难点:主成分的推导步骤及其重要的基本性质。习题:对实际数据进行主成分分析,在回归模型中应用主成分分析。第5部分判别分析总学时(单位:学时):4讲课:4实验:0上机:0第5.1部分判别分析中所使用的几种判别尺度的定义和基本性质(讲课1学时)具体内容:1)要求学生理解判别分析的目的和意义、它的统计思想;2)了解判别分析中常用的几种距离的定义和基本性质。第5.2部分距离判别法,Bayes判别法(讲课3学时)具体内容:1)了解并熟悉判别分析的三种类型,特别是Bayes判别方法的统计思想;2)掌握教材中给出的不同判别方法的判别规则和判别函数的结构;3)熟练掌握两总体样本的距离判别法和Bayes判别法的具体计算步骤,并比较其异同;4)掌握R语言中的相应程序。重点:两总体样本的距离判别法和Bayes判别法的具体计算步骤;难点:Bayes判别法。习题:对给定的数据利用不同方法给出判别准则,能确定哪个判别准则更合理。第6部分聚类分析总学时(单位:学时):4讲课:4实验:0上机:0第6.1部分距离的定义,快速聚类法(讲课2学时)具体内容:1)要求学生了解变量类型的几种距离的定义;2)理解聚类分析的目的和意义、它的统计思想;3)熟悉聚类分析常用的距离的定义;4)掌握快速聚类方法。第6.2部分谱系聚类法(讲课2学时)具体内容:1)了解四种谱系聚类方法,以及它们的统一公式;2)熟悉软件中最长(短)距离法和重心法的具体使用步骤;3)能运用聚类分析法及R语言解决一些实际问题。重点:快速聚类法与谱系聚类法;难点:1初始聚点的确定方法;2谱系聚类法确定类数。习题:对给定的数据进行聚类分析。第7部分时间序列模型总学时(单位:学时):4讲课:4实验:0上机:0第7.1部分时间序列模型及平滑方法(讲课2学时)具体内容:1)了解时间序列数据和时间序列模型,理解时间序列数据的特点和分析思想;2)掌握时间数列平滑方法。第7.2部分ARMA模型(讲课2学时)具体内容:1)了解ARMA模型的定义;2)会用ARMA模型分析时间序列数据。重点:时间序列数据的分析思想与方法;难点:ARMA模型。习题:对给定的数据建立时间序列模型进行分析和预测。