数据分析与软件应用主讲教师:王明芳电话:13951877349Email:wmfxhbl@sina.comQQ:83405597422020/1/252一、为什么要学习这门课?个人:这一个月的钱都花到哪里去了?(谁动了我的钱?)集体:一个公司的利润是从哪里得来的?某支股票的波动受到了哪些影响?国家:2014年青奥会能带给我们什么?京沪高铁;7.23事件……大学生数学建模的例子:艾滋病疗法的评价及疗效的预测3同时服用3种药物的300多名病人每隔几周测试的CD4和HIV的浓度。艾滋病疗法的评价及疗效的预测:第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.2个/ml),第4列是测试HIV的时刻(周),第5列是测得的HIV(单位不详)。病人编号CD4时期CD4数值RNADateVLoad23424017805.523424422843.923424812684.723424251712542342440994052342501405.32342546242.423425911093.72342523122232.6………42020/1/254二、课程概述Who?When?How?What?Why?数据分析与软件应用Where?52020/1/255课程主要内容第一讲概论第二讲spss数据文件的建立、管理及预处理第三讲spss数据的基本统计分析第四讲假设检验第五讲多元统计概述第六讲聚类分析第七讲判别分析第八讲主成分分析第九讲因子分析第十讲典型相关分析6参考书籍书籍:实用多元统计方法应用多元统计分析朱建平科学出版社应用统计葛新泉社会科学出版社基于spss的数据分析薛薇中国人大若干论文相关软件ExcelSpss7参考网站中国经济统计(统计资源)中国精算网统计精英网(杭州商学院,经济统计)研究人员之家——实验设计&数据分析数据处理&实验设计(包括ppt教案、软件等)数据挖掘讨论组数海淘金82020/1/258教学目的及要求教学目的:通过本课程的学习,学会应用数据分析的相应方法对数据进行合理的分析,通过和不同的学科知识相结合,对所考虑具体问题给出合理的推断。考核平时实验,作业,一次报告,期末考试。根据具体工作安排,按时完成布置的案例作业,如果可能的话在课堂上讲述出来和大家一起讨论。报告:针对数据分析的方法和应用写一篇报告,必须有自己的体会和看法,用打印稿的形式上交。9教学目的及要求本课程将尽量围绕一个案例贯穿始终,所有分析方法都利用这个案例的数据进行分析,从而给出一个相对比较完整的数据分析的案例。当然这个工作是由学生自己做出来的!经过每一步的分析和讨论,应该能更好的掌握这门课的精髓。2020/1/25910三、本学期的案例某群体网络购买能力的分析目标:通过对相应群体网上购物数据的调研和分析,达到了解学生购买习惯、偏好等规律。2020/1/251011四获取数据的初步知识第一数据、信息和知识的差别第二数据挖掘系统的总体结构第三数据从哪里来第四数据清理第五分工12第一数据、信息和知识的差别数据丰富与知识匮乏:数据挖掘1213第二数据挖掘系统总体结构14第三数据从哪里来手段:网络、统计年鉴、实验、问卷调查获取数据的原则:及时、准确、全面、适用、经济获取数据的步骤:1.分析问题2.确定属性变量3.数据的缺失处理4.数据属性变量的初步筛选案例步骤:2020/1/251415第四数据清理(datacleaning)噪声数据:数据中存在着错误、或异常(偏离期望值)的数据不完整数据:感兴趣的属性没有值不一致数据:数据内涵出现不一致情况(如:作为关键字的同一部门编码出现不同值)。清洗、集成、转换、消减2020/1/251516数据清洗:消除数据中所存在的噪声以及纠正其不一致的错误162020/1/25遗漏数据处理:忽略该条记录手工填补遗漏值利用缺省值填补遗漏值利用均值填补遗漏值利用同类别均值填补遗漏值利用最可能的值填补遗漏值噪声数据处理(平滑或发现异常数据)Bin方法聚类方法人机结合检查方法回归方法不一致数据:利用与外部的关联手工加以处理17数据集成(dataintegration)将来自多个数据源的数据合并到一起构成一个完整的数据集模式集成(匹配性)冗余问题(相关性分析)数据值冲突检测与消除18数据转换(datatransformation)将一种格式的数据转换为另一种格式的数据平滑处理,消除噪声合计处理数据泛化处理:利用更高层次的概念取代低层次:如街道城市或国家规格化:将有关属性数据按比例投射到特定范围中最大最小规格化方法零均值规格化方法十基数变换规格化方法属性构造:根据已有属性构建新属性19数据消减(datareduction)通过删除冗余特征或聚类消除多余数据数据立方合计维数消减数据压缩离散化与概念层次生成20第五分工数据的整理和清扫数据的初步统计(均值,方差,相关系数)假设检验(不同类别的数值是否具有一致性)2020/1/252021思考题数据、信息和知识的差别是什么?数据清理包含的内容及如何清理?