2015/6/281数据挖掘导论IntroductiontoDataMining主讲:王星中国人民大学统计学院副教授Email:wangxingwisdom@126.com办公电话:86-10-82500167中国人民大学明德主楼1019课程目标1.认识大数据2.学习数据挖掘必要性的3个方面3.数据挖掘的产生历史与发展4.数据挖掘的功能特点5.数据挖掘的基本流程6.数据挖掘的应用案例7.数据挖掘的基本工具与算法8.运用模型进行数据分析9.数据挖掘工具的发展教材与参考书教材:!!!1.Hastie,TibshiraniandFriedman,TheElementsofStatisticalLearning:DataMining,Inference,andPrediction.ThesecondEdition.•机器学习引论,EthemAlpaydin,机械工业出版社,2009•T.M.Mitchell,MachineLearning,McGrawHill,1997•WittenandFrank,DataMining:PracticalMachineLearningToolsandTechniques.(SecondEdition)AndrewMoore'sTutorialsareacollectionofPDFtutorialsonmanyofthetopicsthatwillbecoveredintheclass.•RichardO.Duda,PeterE.Hart,PatternClassification;•R.O.Duda,P.E.Hart,andD.G.Stork,PatternClassification,2ed.,Wiley-Interscience,2000•袁卫等,数据挖掘-客户关系管理的科学与艺术。•PangPingTan,数据挖掘导论,人民邮电出版社。•P.-N.Tan,M.SteinbachandV.Kumar,IntroductiontoDataMining,Wiley,2005•HanJiawei,DataminingConceptsandtechniques,机械工业出版社。王星,非参数统计,清华大学出版社,2009,03。2015/6/28wangxingscy@gmail.com信息时代----现代人的状态•互联网时代-------信息传播和信息共享•会话时代-------个人输入和主机输出的时代•迷失时代?节奏快交互性数字化效率高个人终端时代和集团主机时代的到来!什么是大数据?(观察、归纳和判断的模式化)4V特性(Variable,Variety,Variance,Visulization)体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据带来的新机遇1:提供了观察全球危机问题的新视窗全球政策危机问题:疾病、恐怖、财富贫困、环境、健康万维网,生物信息,引文数据,友情网络更多的计算力和大规模的数据分析方法可以实现从数据中获得可执行的信息1.全球扩张式经营发展没有实现人类生活质量的同步发展2.单一视角的差距拉大和多视角的规模效应呈现3.急需深刻认识现状,为政策制定提供依据数据匮乏2015/6/282大数据带来的新机遇2:大数据分析将在数字化的进程中扮演重要角色数据数据加工数据分布模型选择报告功能分类组合功能参照行业特点数据数据数据数据数据数据21世纪提出的“无尺度网络”将人类的行为装进一个巨大的显微镜下,使基于微观数据构筑群体模式成为可能,从而提供了一套通过延展深度和广度实现高质量地揭示宏观现象特征和联系的大数据分析方法,并服务于相关应用质量控制市场分析和管理评价分析智能查询风险分析和管理趋势预测1.数据挖掘的规范理论2.高速数据流或高维数据表示理论3.序列和时序数据挖掘4.复杂数据复杂知识的建模理论5.网络环境下的建模理论6.分布式数据挖掘和多代理数据建模7.生物环境问题中的数据挖掘8.数据挖掘过程相关问题9.安全性、隐私性和数据整合10.动态、不平衡和代价敏感性数据挖掘大规模的数据分析技术在社会分析和科学发现中的作用越来越重要,它被用于建筑一个有序的、安全的和稳定的问题分析的环境、原则和工具。大数据带来的新机遇3:大数据分析需要新的数据分析理论、工具和环境1.数据挖掘的概念1.数据挖掘的概念2.数据挖掘的产生与发展3.数据挖掘应用与商务智能4.数据挖掘的基本流程5.数据挖掘的应用案例6.数据挖掘的一些基本工具与算法7.数据挖掘工具的发展趋势“Thekeyinbusinessistoknowsomethingthatnobodyelseknows.”一家企业成功的秘钥是拥有别人不知道的知识—AristotleOnassis(1906-1975)“Tounderstandistoperceivepatterns.”知识是数据中存在的关系和模式—SirIsaiahBerlinPHOTO:LUCINDADOUGLAS-MENZIESPHOTO:HULTON-DEUTSCHCOLLDataMiningMotivationwisdom从数据到知识•动态记忆理论认为:知识是有结构的体系,包括四个基本的结构:系统、环境、步骤和主题•数据并不自动地等同于知识,对建立在以描述事实为基础的隐藏的有价值的结构体系的探索过程就是数据挖掘。•信息提供组织数据的架构,数据提供知识的原材料,知识是数据和信息结合的产物数据挖掘的概念?积累------摸索------识别-----应用与展现.Earlier:Dataminingisthenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata.—Fayyad数据挖掘是一个非平凡的过程,这个过程用于识别有用的,有逻辑关系的,潜在有用,最终可以被解释的模式和知识.Dataminingistheautomaticorsemi-automaticprocessofextractingpreviouslyunknown,comprehensible,andactionableinformationformlargedatabasesandusingittomakecrucialbusinessdecisions.数据挖掘是一个自动化或半自动化的过程,这个过程将从大型数据库中提取先前未知的,具有可操作性的信息,这些信息将用于企业的商业决策。—ZekulinExtremelylargedatasetsDiscoveryofthenon-obviousUsefulknowledgethatcanimproveprocessesCannotbedonecompletelybyhand2015/6/283数据挖掘的基本特点•数据挖掘由工具、方法和理论构成,基本目标是发现数据中存在的有价值的模式和规律。•数据挖掘是一个逐层递阶不断揭开数据价值的知识发现过程。•数据挖掘是商务智能和决策支持的一部分。自动化或半自动化程序是构成数据挖掘的核心技术。•数据挖掘是试图让数据处理器模仿人观察现象、思考问题和判断是非的本能,从大量的数据中总结出规律,辅助对问题作出判断。•数据挖掘是为了发现大型数据库中所隐藏的由意义的模式和规律而进行的探索、实验和分析。数据挖掘的本质----信息的开发与利用•数据挖掘的本质是从大量数据中发现关系-----Fayyad2007•数据挖掘是机器学习的应用1.多学科性:数据库、统计学、机器学习;2.系统工程:自动化或半自动化性的应用设计;3.研究组织:专业研究人员数据挖掘的基本特点:综合性、系统性、专业性Models2.Algorithms4.Applications3.Systems2.数据挖掘的产生与发展1.√数据挖掘的概念2.数据挖掘的产生与发展3.数据挖掘应用与商务智能4.数据挖掘的基本流程5.数据挖掘的应用案例6.数据挖掘的一些基本工具与算法7.数据挖掘工具的发展趋势数据挖掘的功能•分类:–强调概念的结构与概念的表示–DecisionTree,LDAFisherDA,NaivBayesetc.•推估:–强调概念的比较和整体特征的估计–Regression&NeuralNetworketc.•预测:–强调影响到未来不确定性问题的分析–DecisionTree,NeuralNetwork,nonparametricStatisticsetc.•关联分组:–强调定性概念的相互关系–Apriori,CarmaandGRI,etc.•聚类分析:–强调概念的相似性关系–K-means&KohonenNetwork&Twostep•可视化:–强调数据的方便、形象地展示–VisualDatamining有指导的数据挖掘无指导的数据挖掘需要数据挖掘的理由•商业环境的快速改变ChangesintheBusinessEnvironment–Customersbecomingmoredemanding–Marketsaresaturated•大量记录Largenumberofrecords(cases)(108-1012bytes)•高维数据Highdimensionaldata(variables)(10-104attributes)•分析缺位Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed.•非实验数据的存在Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthefuturemaybemissing.•传统方法的不适应性Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).•理性决策的需要Decisionsmustbemaderapidly•Decisionsmustbemadewithmaximumknowledge2015/6/284数据挖掘与数据查询•表面知识(ShallowKnowledge):可以利用数据库查询语言找到–所有使用信用卡购买烤箱的某大型商场的客户列表。•多维的知识(Multidimensionalknowledge):多表的连接操作–电信公司的客户呼叫模式分析:话费清单,用户帐户数据等,人口数据,电话数量分布地理数据。•隐藏的知识(Hiddenknowledge)–开发信用卡帐单促销的客户一般特征文件–将不良风险的人和能按时还贷的人区分开来。•深层的知识(Deepknowledge)–啤酒和纸尿布的关联。3.数据挖掘应用与商务智能1.√数据挖掘的概念2.√数据挖掘的产生与发展3.数据挖掘应用与商务智能4.数据挖掘的基本流程5.数据挖掘的应用案例6.数据挖掘的一些基本工具与算法7.数据挖掘工具的发展趋势数据挖掘客户分析析基分因其他保险客户证券客户银行客户电信客户零售客户人类基因植物基因•基因序列•基因表达谱•基因功能•基因制药………...网络挖掘•网流峰值的预测,故障预测•文档的自动分类(Textmining)•帮助寻找用户感兴趣的新闻•设计电子新闻和垃圾邮件过滤系统交叉销售用户细分风险测量与评估分析信用风险分析客户忠诚度分析客户流失分析和欺诈分析定价分析应用:垃圾邮件过滤器的设计•什么是垃圾信息