1数据挖掘与知识发现第一章绪论2•什么是数据挖掘•数据挖掘要解决的问题•数据挖掘的起源•数据挖掘任务3商务领域借助POS机、手机、电脑、日志、顾客服务记录、顾客信息。商业公司可以获取大量的数据。在这些数据上,我们可以做什么?一些问题:谁是最有价值的顾客?什么产品可以交叉销售或提升销售?公司明年的收入前景如何?4医学、科学与工程医学、科学与工程界的研究者正在快速积累大量数据,这些数据对新发现至关重要。例一:为了更深入地理解地球的气候系统,NASA已部署了一系列的地球轨道卫星,不停的收集地表,海洋和大气的全球观测数据一些问题:干旱和飓风的频度和强度与全球变暖有什么联系?海洋表面的温度对地表降水量和温度有什么影响?如何准确的预测一个度曲的生长季节的开始和结束?5医学、科学与工程例二:分子生物学研究者希望利用当前收集的大量基因组数据,更好的理解基因的结构和功能。数据的噪音和高维性需要新的数据分析方法。数据挖掘也可以用来处理生物学的其他难题,如蛋白质结构预测,多序列校准,生物化学路径建模和种系发生学。61、什么是数据挖掘?7到底什么是数据挖掘呢?数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。1、发现先前未知的有用模式2、预测未来的观测结果1、数据库中查找个别记录2、搜索引擎查找特定页面8那么,什么又是知识发现呢?数据挖掘是数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数据转换为有用信息的整个过程。输入数据数据预处理数据挖掘后处理信息特征选择维归约规范化选择数据子集模式过滤可视化模式表示92、数据挖掘要解决的问题10面临新的数据集带来的问题时,传统的数据分析技术常常遇到实际的困难。可伸缩需要有能力处理海量数据问题高维性需要很好的处理维灾难问题异种数据和复杂数据需要考虑数据对象的复杂性和多样性数据的所有权与分布需要考虑数据安全性、加快计算速度、汇总计算结果非传统的分析非单一假设-检验模式VS113、数据挖掘的起源12人工智能、机器学习、和模式识别数据挖掘的方法来自机器学习或AI,模式识别,统计学与数据库系统统计学数据挖掘数据库技术、并行计算、分布式计算133、数据挖掘的任务14大类区分数据挖掘任务预测任务根据其他属性的值,预测特定属性的值被预测变量通常被称为目标变量描述任务导出概括数据中潜在联系的模式包括相关、趋势、聚类、轨迹、异常15TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10数据聚类分析关联分析预测建模异常检测16预测建模预测建模的任务可以分为两类:分类回归目标变量离散连续举例是否买书股票价格共同点训练模型,减小误差预测建模的任务举例:确定顾客对产品促销活动的反应预测地球生态系统的扰动根据检查结果判断病人是否患有疾病17。预测建模例子:预测鸢尾花(IRIS)的类型,Setosa,Veriscolour,Virginica。该数据集包含4个属性和1个目标变量。属性为萼片宽度,萼片长度,花瓣长度,花瓣宽度,目标变量为花的种类。我们可以根据区间宽度把花瓣宽度和长度分为低中高三类。然后可推出如下规则:花瓣宽度和花瓣长度为低蕴涵Setosa花瓣宽度和花瓣长度为中蕴涵Versicolour花瓣宽度和花瓣长度为高蕴涵Virginica18关联分析用来发现描述数据中强关联特征的模式。关联分析的任务举例:找出具有相关功能的基因组识别用户一起访问的Web页面理解地球气候系统不同元素之间的联系①所发现的模式通常用蕴含规则或特征子集的形式表示②搜索空间通常是指数规模的,因此关联分析的目标是以有效的方式提取有趣的结果19关联分析例子:下面是一杂货店收银台收集的销售数据事务ID商品12345678910{面包,黄油,尿布,牛奶}{咖啡,糖,小甜饼,鲑鱼}{面包,黄油,咖啡,尿布,牛奶,鸡蛋}{面包,黄油,鲑鱼,鸡}{鸡蛋,面包,黄油}{鲑鱼,尿布,牛奶}{面包,茶,糖,鸡蛋}{咖啡,糖,鸡,鸡蛋}{面包,尿布,牛奶,盐}{茶,鸡蛋,小甜饼,尿布,牛奶}顾客经常一起购买的商品是什么?20关联分析事务ID商品12345678910{面包,黄油,尿布,牛奶}{咖啡,糖,小甜饼,鲑鱼}{面包,黄油,咖啡,尿布,牛奶,鸡蛋}{面包,黄油,鲑鱼,鸡}{鸡蛋,面包,黄油}{鲑鱼,尿布,牛奶}{面包,茶,糖,鸡蛋}{咖啡,糖,鸡,鸡蛋}{面包,尿布,牛奶,盐}{茶,鸡蛋,小甜饼,尿布,牛奶}例子:下面是一杂货店收银台收集的销售数据顾客经常一起购买的商品是什么?21聚类分析旨在发现紧密相关的观测值组群。使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似。聚类分析的任务举例:对相关顾客进行分组找出显著影响地球气候的海洋区域压缩数据22聚类分析例子:下表中的新闻文章可以根据他们各自的主题分组。每篇文章表示为词-频率对的组合(w:c)。w是词,c是该词在文章中出现的次数。这8篇文章如何划分簇?23异常检测任务是识别其特征显著不同于其他数据的观测值,这样的观测值点称为异常点或离群点。异常检测算法的目标是发现真正的异常点,而避免错误的将正常的对象标注为异常点。一个好的异常检测器应具有高检测率和低误报率。异常检测的任务举例:检测欺诈网络攻击疾病的不寻常模式生态系统的扰动24异常检测例子:信用卡公司记录每个持卡人所做的交易,同时也记录信用限度、年龄、年薪和地址等个人信息。由于与合法交易相比,欺诈行为的数目相对很少,因此异常检测技术可以用来构造用户合法交易的轮廓。当一个新的交易到达时,与合法交易的轮廓进行比较。如果与合法轮廓很不相同,就把交易标记为可能是欺诈!25参考书引论型:Dunham商务应用型:Berry和Linoff统计学习型:Cherkassky和Mulier机器学习型:Duada等,Mitchell相关会议直接相关:SIGKDD,ICDM,SDM,PKDD,PAKDD间接相关:SIGMOD,VLDB,CIKM,ICDE,ICML,AAAI相关期刊IEEETransactionsonKnowledgeandDataEngineering(TKDE)DataMiningandKnowledgeDiscovery(DMKD)KnowledgeandInformationSystems(KIS)IntelligentDataAnalysis(IDA)InformationSystems(IS)JournalofIntelligentInformationSystems(IJIS)26•课堂讨论:结合自己身边的生活,构想一种可能的数据挖掘应用。可在自己研究课题范围内,也可涉及任意领域。