基于软件学习数据挖掘算法和案例Week01

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区基于软件学习数据挖掘算法和案例第一周基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站专业数据分析社区炼数成金逆向收费式网络课程Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站专业数据分析社区章节简介和章节目标本章节主要内容•数据挖掘的定义和背景•数据挖掘经典算法简介•本章节您可以学到•什么是数据挖掘•为什么要学习数据挖掘•我可以利用数据挖掘做什么基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区数据挖掘定义(英语:Datamining):又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。以上内容转自百度百科数据挖掘简单示意图数据库中数据数据批量处理数据挖掘挖掘结果应用数据挖掘定义C基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区客观条件:目前所有企业的业务数据增长速度奇快,普通的分析已经无法满足企业发展的需要,企业目前急需将自己多年保存的数据加以规范化的处理和信息提取、知识发现。用来完成对数据的使用进而提升本身的营销能力和水准。技术条件:在海量的数据中提取能用于企业的一些知识规则,这本身是一件门槛极高的事,在这之前的BI是办不到的,而现在统计学的发展和数据挖掘算法的兴起和快速更新让数据挖掘具备了客观条件和技术上的条件,所以,近两年,数据挖掘被众多行业广泛关注,也体现了信息时代数据的主导地位。数据回馈:个别企业比较注重数据的规范存储,因为数据的增长速度几乎是几何级数,对数据的投入成本也是越来越高,而数据挖掘也算是对这一成本的反馈,此时的数据挖掘成果会指导下一步的数据存储计划。总的来说,数据挖掘是企业信息化管理和业务优化、更新的不二选择。企业储存数据,数据几何级数增长企业进行商务智能分析(BI)但是不解决根本问题数据挖掘解决业务瓶颈,为企业带来新的生产力挖掘知识规则应用,给企业带来持续的业绩增长数据挖掘背景C基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区右下角为数据挖掘算法的结果展示截图;左下角为较为常见的传统BI分析图可见,传统BI更趋向于对分类特征的刻画,但是无法较为精准地判断具体数据应对的分类,而数据挖掘算法可以,右下图是应用决策树算法运行的数结果。普通BI结果示意数据挖掘结果(树状图)指标1指标2指标3指标4指标5指标6消极积极数据挖掘必要性B基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区数据挖掘经典算法简介数据挖掘主要算法:分类关联规则回归时间序列聚类算法决策树贝叶斯逻辑归回线性回归多项式回归FP树Apriori移动平均自回归过程K均值期望最大化B基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区数据挖掘算法和数据类型数据挖掘算法和数据类型:分类关联规则回归时间序列聚类算法不限制类型需要设置标签变量数值型需要设置因变量名义型数据需要设置置信度阈值数值型需要设置因变量数值和名义型不需要设置因变量B基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区目录数据挖掘工具2基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区章节简介和章节目标本章节主要内容•几种常用数据挖掘工具比较•Rapidminer简介•数据挖掘所需要的其他辅助工具•本章节您可以学到•用什么做数据挖掘•我适合哪种工具•还需要什么其他知识基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区数据挖掘常用工具13常用挖掘工具比较数据挖掘工具安装包大小界面功能全面型入门难度结果展示适用人群SAS3G菜单操作非常好高优秀数学专业IBMSPSS1G菜单操作优秀中优秀数学专业R50M菜单操作/代码优秀高优秀数学专业Excel20101G菜单操作一般低一般理科专业Rapidminer580M图形化操作非常好低优秀理科专业SAS9.2版本截图SPSS挖掘软件截图R软件结果界面截图A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区Rapidminer简介通过调查数据,我们可以轻易可以知晓Rapidminer,R,Excel,SQL,Python是数据挖掘常用的工具前五名,著名的weka和SAS也榜上有名在国内逐渐热起来的R软件份额较高,但是近三年份额不如Rapidminer,在专门的数据挖掘方面,可以说Rapidminer超过了RKDD网站调查:最受欢迎工具RapidminerRapidminer是数据挖掘工具新霸主A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区Rapidminer特点简介rapidminer软件的左侧搜索栏,分成数据输入、输出、建模等文件夹在搜索栏中搜索“DecisionTree”,所有和决策树相关的算法都显示出来了支持Excel、Csv、等格式文件,同时也支持其他统计分析软件的数据输入所有操作可以通过搜索来找到,比菜单式方便,有200多种常见算法所有算法都已经封装,挖掘流程为图形化拖拽支持几乎所有的数据格式,包括不同数据库或者文本A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区Rapidminer是一款具有可视化流程的挖掘软件,下面的流程展示了目前挖掘流程中所有用到的操作符。项目用到了数据处理、数据角色处理,挖掘算法计算、应用模型、和结果转置。最后我们可以将结果写入数据库指定的表格,方便查询使用或者导出文件方便存储。Rapidminer软件界面Rapidminer界面简介A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区GUI出彩:在GUI这一板块的优势几乎是不可逆转的,Rapidminer是你学习任何算法都极其容易,哪怕你是小白。拥有极其难得的内嵌完整挖掘教程:安装Rapidminer之后,任何你不懂的算法都可以打开教程来进行学习,而不必百度/谷歌,大大地降低学习成本,提高效率,这和Python对于编程人员的吸引是一个道理图形化结果和数据结果一起呈现:Rapidminer的挖掘结果会让你无成本自由切换,且对结果可以进行图形化的展示,对于数据分析师是一个很湿的诱惑完整性:在被调查者中,仅使用Rapidminer一款工具的占三分之一以上,对于R,这一数据为2.1%,可以体会一下。为什么推荐Rapidminer数据挖掘工程单独使用工具排行A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区安装Rapidminer在课程资源处下载指定版本Rapidminer软件将Rapidminer软件拓展工具包放在正确文件夹打开Rapidminer软件,使用任意操作符愉快地学习吧A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区目录数据分析师谨记!3基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区数据挖掘部署实施——信任问题和客户的沟通:由于数据挖掘在之前不是一个应用十分广泛的新技术,所以,在实施部署阶段往往会遇到比较大的问题,这些问题来自使用者的不信任和排斥。事实比猜测更有说服力:然而数据挖掘的商业价值在于可以给出直接可用的结果,而不是停留在只分析没结果的分析层面,所以如果挖掘算法的结果正确或者优于其他途径,这对建立人们对挖掘的信心十分重要。UNIVAC公司预测的典故网络使用UNIVAC(最早的商用计算机系统之一)在1952年美国总统大选前夜预测选举结果时,CBS并不相信UNIVAC的初步预测。在仅统计了5%的选票后,UNIVAC预测德怀特·戴维·艾森豪威尔将以压倒性优势击败阿德莱·史蒂文森;民意测验专家或熟知选情的人士都认为这不太可能,甚至根本不可能。事实上,大多数“专家”都预测史蒂文森将以微弱优势获胜,而有些“专家”则表示因为他们预测两人将难分胜负,所以艾森豪威尔也有可能以微弱优势胜出。直到选举前夜很晚的时间,当人工计票确认艾森豪威尔当选时,CBS才在广播中播出艾森豪威尔已胜出的消息,并承认UNIVAC在几个小时之前便已预测出这一结果,但顽固保守的人们拒绝相信计算机的预测。当结果表明UNIVAC的预测仅与最终公布的计票结果相差不到1%时,UNIVAC再一次得到了验证。新技术常常会令人不安,并且有时人们很难相信计算机所显示的结果。在您解释新的数据挖掘模型如何工作、结果意味着什么,以及如何使用它们时,一定要有耐心,而且内容要具体。A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区数据挖掘部署实施——专业反馈专业人士的意见:我们在最初学习数据挖掘标准流程时强调过数据挖掘的结果一定要交给专业人士审核,在合作项目时,即交给企业用户专业人士来审核,首先挖掘结果需要进行精确的“翻译”,转化成业务指导。分析师和专业人士的沟通:在数据挖掘结果提交时,我们认为,数据分析师和专业人士的交流十分重要,这也代表着分析结果要经过数据上和商务上的考验。正确使用数据挖掘数据挖掘的评估过程是一种用统计方法评估模型可靠性的方式。有多种交叉验证和性能操作符可用于检查训练数据集的预测能力。但是需要注意的是没有任何东西能够取代经验和专业知识。因此请让相关主题专家查看您的数据挖掘结果,并请他们对模型输出提出反馈。在整个组织范围内推行模型的预测结果之前,请进行试点测试并让重点人群试验模型的预测结果。如果有人对模型结果的可靠性提出质疑,切勿因此而恼怒,一定要谦虚地考虑他们的问题,并以此为契机验证并强化模型。切记“骄者必败”!数据挖掘是一个流程。如果您认为自己的数据挖掘结果和建议绝对可靠,就会忽视CRISP-DM是一个需要循环进行的流程,而您迟早会发现这是非常荒谬的。CRISP-DM无疑是一个非常好的流程,因为它能够帮助我们调查数据、从调查中了解更多知识,然后在掌握更多信息的情况下再次进行调查。评估和部署是该流程的两个步骤,在两个步骤中,我们可以掌握更多信息。A基于软件学习数据挖掘算法和案例第一版讲师宫艳琢DATAGURU专业数据分析社区线下学习QQ群:216117207个人微信:564778089Email:gongxia

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功