数据挖掘Chapter1

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘导论Pang-ningTan,MichaelStieinbach,andVipinKumar著PearsonEducationLTD.范明等译人民邮电出版社2019年10月20日星期日数据挖掘导论22019年10月20日星期日数据挖掘导论3主要参考书JiaweiHan,MichelineKamberandJianPeiDataMining:ConceptsandTechniqus(thirdEdition),MonrganKaufmannPublishersInc.,2012范明,孟小峰译数据挖掘:概念与技术(第二版)机械工业出版社,20072019年10月20日星期日数据挖掘导论42019年10月20日星期日数据挖掘导论52019年10月20日星期日数据挖掘导论6JiaweiHan在数据挖掘领域做出杰出贡献的郑州大学校友——韩家炜第1章绪论英文幻灯片制作:Tan,Steinbach,Kumar中文幻灯片编译:范明2019年10月20日星期日数据挖掘导论8为什么挖掘数据?(商业)大量数据被收集,存储在数据库\数据仓库中Webdata,e-commercepurchasesatdepartment/grocerystoresBank/CreditCardtransactions计算机越来越便宜,功能越来越强大竞争压力越来越大Providebetter,customizedservicesforanedge(e.g.inCustomerRelationshipManagement)2019年10月20日星期日数据挖掘导论9为什么挖掘数据?(科学)数据以极快的速度收集和存储(GB/hour)remotesensorsonasatellitetelescopesscanningtheskiesmicroarraysgeneratinggeneexpressiondatascientificsimulationsgeneratingterabytes(千兆字节)ofdata传统的技术难以处理这些rawdata数据挖掘可能帮助科学家inclassifyingandsegmentingdatainHypothesisFormation2019年10月20日星期日数据挖掘导论10挖掘大型数据集:动机常常有些信息“隐藏”在数据中,并非显而易见的人分析需要数周\数月,才能发现有用的信息许多数据根本未曾分析过0500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999TheDataGap2019年10月20日星期日数据挖掘导论11什么是数据挖掘许多不同定义本书定义在大型数据存储库中,自动地发现有用信息的过程。Exploration&analysis,byautomaticorsemi-automaticmeans,oflargequantitiesofdatainordertodiscovermeaningfulpatternsJiaweiHan的定义从大型数据集中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式一个类似于JiaweiHan的定义Non-trivialextractionofimplicit,previouslyunknownandpotentiallyusefulinformationfromdata2019年10月20日星期日数据挖掘导论12什么(不)是数据挖掘WhatisDataMining?–CertainnamesaremoreprevalentincertainUSlocations(O’Brien,O’Rurke,O’Reilly…inBostonarea)–Grouptogethersimilardocumentsreturnedbysearchengineaccordingtotheircontext(e.g.Amazonrainforest,Amazon.com,)WhatisnotDataMining?–Lookupphonenumberinphonedirectory–QueryaWebsearchengineforinformationabout“Amazon”2019年10月20日星期日数据挖掘导论13数据挖掘与KDD数据挖掘与知识发现数据挖掘是数据库中知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分KDD是将未加工的数据转换为有用信息的整个过程2019年10月20日星期日数据挖掘导论14引发数据挖掘的挑战1可伸缩海量数据集越来越普遍数千兆字节(terabytes)为处理海量数据,算法必须是可伸缩的(scalable)可伸缩可能还需要新的数据结构,以有效的方式访问个别记录例如,当要处理的数据不能放进内存时,可能需要非内存算法使用抽样技术或开发并行和分布算法也可以提高可伸缩程度2019年10月20日星期日数据挖掘导论15挑战2高维性具有数以百计或数以千计属性的数据集生物信息学:涉及数千特征的基因表达数据不同地区温度测量:维度(特征数)的增长正比于测量的次数为低维数据开发的数据分析技术不能很好地处理高维数据某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加2019年10月20日星期日数据挖掘导论16挑战3异种数据和复杂数据传统的数据分析方法只处理包含相同类型属性的数据集非传统的数据类型的出现需要能够处理异种属性的技术半结构化文本和超链接的Web页面集具有序列和三维结构的DNA数据地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据数据中的联系如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系2019年10月20日星期日数据挖掘导论17挑战4数据的所有权与分布数据地理上分布在属于多个机构的资源中需要开发分布式数据挖掘技术分布式数据挖掘算法面临的主要挑战包括(1)如何降低执行分布式计算所需的通信量?(2)如何有效地统一从多个资源得到的数据挖掘结果?(3)如何处理数据安全性问题?2019年10月20日星期日数据挖掘导论18挑战5非传统的分析传统的统计学方法:假设-检验模式提出一种假设,设计实验来收集数据,然后针对假设分析数据当前的数据分析任务常常需要产生和评估数以千计的假设希望自动地产生和评估假设导致了一些数据挖掘技术的开发数据挖掘所分析的数据集通常不是精心设计的实验的结果代表数据的时机性样本(opportunisticsample)而不是随机样本(randomsample)数据集常常涉及非传统的数据类型和数据分布2019年10月20日星期日数据挖掘导论19数据挖掘的起源数据挖掘是多学科交叉领域利用了来自如下一些领域的思想:统计学的抽样、估计和假设检验人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论数据库系统提供有效的存储、索引和查询处理支持分布式技术也能帮助处理海量数据最优化、进化计算、信息论、信号处理、可视化和信息检索MachineLearning/PatternRecognitionStatistics/AIDataMiningDatabasesystems2019年10月20日星期日数据挖掘导论20数据挖掘任务预测vs.描述预测(Prediction)根据其他属性的值,预测特定属性的值描述(Description)导出概括数据中潜在联系的模式2019年10月20日星期日数据挖掘导论21数据挖掘任务分类(Classification)[Predictive]回归(Regression)[Predictive]关联规则发现(AssociationRuleDiscovery)[Descriptive]序列模式发现(SequentialPatternDiscovery)[Descriptive]聚类(Clustering)[Descriptive]异常/偏差检测(Anomaly/DeviationDetection)[Predictive]2019年10月20日星期日数据挖掘导论22分类:定义给定一批记录----训练集(trainingset)Eachrecordcontainsasetofattributes,oneoftheattributesistheclasslabel(类标号).任务:建立一个模型(model)类标号属性是其他属性值的函数目标:previouslyunseenrecordsshouldbeassignedaclassasaccuratelyaspossible.Atestset(检验集)isusedtodeterminetheaccuracyofthemodel.Usually,thegivendatasetisdividedintotrainingandtestsets,withtrainingsetusedtobuildthemodelandtestsetusedtovalidateit2019年10月20日星期日数据挖掘导论23分类:例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundMaritalStatusTaxableIncomeCheatNoSingle75K?YesMarried50K?NoMarried150K?YesDivorced90K?NoSingle40K?NoMarried80K?10TestSetTrainingSetModelLearnClassifier2019年10月20日星期日数据挖掘导论24分类:应用1DirectMarketingGoal:Reducecostofmailingbytargetingasetofconsumerslikelytobuyanewcell-phoneproduct.Approach:Usethedataforasimilarproductintroducedbefore.Weknowwhichcustomersdecidedtobuyandwhichdecidedotherwise.This{buy,don’tbuy}decisionformstheclassattribute.Collectvariousdemographic,lifestyle,andcompany-interactionrelatedinformationaboutallsuchcustomers.Typeofbusiness,wheretheystay,howmuchtheyearn,etc.Usethisinformationasinputattributestolearnaclassifiermodel.2019年10月20日星期日数据挖掘导论25分类:应用2FraudDetectionGoal:Predictfraudulentcasesincreditcardtransactions.Approach:Usecreditcardtransactionsandtheinformationonitsaccount-holderasattributes.Whendoesacustomerbuy,whatdoeshebuy,howoftenhepaysontime,etcLabelpasttr

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功