本周学习内容总结•1.观看《数据可视化培训视频》•2.学习数据可视化、数据挖掘•3.观看视频《用户体验的大数据》培训视频•4.温习java学习视频Python大数据挖掘--餐饮行业数据挖掘项目许超英章节安排第一章数据挖掘过程解析第二章数据挖掘python工具讲解第三章数据探索第四章数据预处理第五章挖掘建模大数据的基本任务:•利用分类预测,聚类分析,关联规则,时序模式,偏差检测,智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。python大数据挖掘建模的过程:•定义数据挖掘的目标•数据取样•数据探索•数据预处理•模型评价数据挖掘过程分析:目标定义:任务理解、指定目标数据采集:建模抽样、质量把控、实时采集数据整理:数据探索、数据清洗、数据变换构建模型:模式发现、构建模型、验证模型模型评价:设定模型评价标准、多模型对比、模型优化模型发布:模型部署、模型重构IBMModeler的CRISM模型:商业理解数据理解数据准备构建模型模型评估部署Python数据挖掘库包:•Numpy•Scipy•Matplotlib•PandasPandas基本操作演示Pandas基本操作演示Pandas基本操作演示Pandas基本操作演示Pandas基本操作演示Pandas基本操作演示Pandas基本操作演示Pandas基本操作演示Pandas基本操作演示Pandas基本操作演示•其它库,在实际的应用中会给大家演示其基本操作!第三章数据探索•本节概述:•通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行数据分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法,基本可以完成一些通常由数据挖掘解决的问题。本节将从数据质量分析和数据特征分析两个角度对数据探索进行探索。数据探索——数据质量分析•数据质量分析的主要任务是检查原始数据是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据一般包含以下内容。•缺失值•异常值•不一致的值•④重复数据及含有特殊符号的数据①缺失值分析•产生原因:数据暂时无法获取,人为原因导致纰漏,属性不存在等。•缺失值的影响:数据挖掘将丢失大量的有用信息;数据挖掘建模表现的不确定性增加;包含空值的数据会使建模过程陷入混乱。•缺失值的分析:使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未进行插补和不处理的缺失数与缺失率。•缺失值的处理:缺失值的处理分为,删除存在缺失值的记录,对可能值进行插补和不处理②异常值处理•异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点。•异常值分析:•简单统计量分析•3σ原则•箱型图分析②异常值处理②异常值处理③一致性分析•数据一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。数据探索——数据特征分析•对数据进行质量分析之后,可以通过绘制图表、计算某些特征量等手段进行数据特征分析。•分布分析:分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式,可以绘制频率分布表、绘制频率分布直方图等图表进行直观地分析,对于定性分类数据,可用饼状图和条形图直观地显示分布状况。数据探索——数据特征分析数据探索——数据特征分析数据探索——数据特征分析•贡献度分析•帕累托分析,它的原理是帕累托法则,又称20/80法则。同样的投入放在不同的地方会产生不同的效益。•在餐饮数据分析中,根据帕累托法则可以粗略的预测:•“80%的收入,来源与20%的菜品;80%的菜品仅仅占总收入的20%”数据探索——数据特征分析•贡献度分析数据探索——数据特征分析•贡献度分析第四章数据预处理•数据预处理一方面可以提高数据的质量,另一方面要让数据更好地适应特定的挖掘技巧或工具。统计发现,在数据挖掘的过程中,数据预处理的工作量占到了整个数据挖掘过程的60%。数据预处理的主要内容包括数据清洗、数据采集、数据变换和数据归约。本章内容,主要就从以上四方面进行讲述。第四章数据预处理数据预处理过程示意图4.1数据清洗数据清洗的主要任务是删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题不相关的数据,处理缺失值与异常值等。缺失值处理删除记录不作处理数据插补数据插补A均值、中位数、众数插补B使用固定值C最近邻插补D回归方法E插值法拉格朗日插值法(正在研究中)牛顿插值法下一周学习计划安排g1.两项插值法理论弄明白并用python实现2.《数据挖掘模型》的研究3.java开发视频过一遍