数据挖掘讲义

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

教科书和参考书„教科书‰数据挖掘:概念与技术,JiaweiHan和MichelineKamber著,机械工业出版社(2001)„参考书‰数据挖掘原理,DavidHand,HeikkiMannila和PadhraicSmyth著,机械工业出版社(2003)中文版英文影印版主要内容„数据挖掘综述„数据仓库和数据挖掘的OLAP技术„数据预处理数据挖掘的发展动力---需要是发明之母„数据爆炸问题‰自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。„我们拥有丰富的数据,但却缺乏有用的信息„解决方法:数据仓库技术和数据挖掘技术‰数据仓库(DataWarehouse)和在线分析处理(OLAP)‰数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据库技术的演化„1960s和以前:‰文件系统„1970s:‰层次数据库和网状数据库„1980s早期:‰关系数据模型,关系数据库管理系统(RDBMS)的实现„1980s晚期:‰各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)‰面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)„1990s:‰数据挖掘,数据仓库,多媒体数据库和网络数据库„2000s‰流数据管理和挖掘‰基于各种应用的数据挖掘‰XML数据库和整合的信息系统什么是数据挖掘?„数据挖掘(从数据中发现知识)‰从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识‰挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)„数据挖掘的替换词‰数据库中的知识挖掘(KDD)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。„并非所有东西都是“数据挖掘”‰查询处理.‰专家系统或是小型的数学计算/统计程序数据挖掘的应用„数据分析和决策支持‰市场分析和管理„目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割‰风险分析和管理„风险预测,客户保持,保险业的改良,质量控制,竞争分析‰欺骗检测和异常模式的监测(孤立点)„其他的应用‰文本挖掘(新闻组,电子邮件,文档)和WEB挖掘‰流数据挖掘‰DNA和生物数据分析数据挖掘应用——市场分析和管理(1)„数据从那里来?‰信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究„目标市场‰构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等‰确定顾客的购买模式„交叉市场分析‰货物销售之间的相互联系和相关性,以及基于这种联系上的预测数据挖掘应用——市场分析和管理(2)„顾客分析‰哪类顾客购买那种商品(聚类分析或分类预测)„客户需求分析‰确定适合不同顾客的昀佳商品‰预测何种因素能够吸引新顾客„提供概要信息‰多维度的综合报告‰统计概要信息(数据的集中趋势和变化)数据挖掘应用——公司分析和风险管理„财务计划‰现金流转分析和预测‰交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)„资源计划‰总结和比较资源和花费„竞争‰对竞争者和市场趋势的监控‰将顾客按等级分组和基于等级的定价过程‰将定价策略应用于竞争更激烈的市场中数据挖掘应用——欺诈行为检测和异常模式的发现„方法:对欺骗行为进行聚类和建模,并进行孤立点分析„应用:卫生保健、零售业、信用卡服务、电信等‰汽车保险:相撞事件的分析‰洗钱:发现可疑的货币交易行为‰医疗保险„职业病人,医生以及相关数据分析„不必要的或相关的测试‰电信:电话呼叫欺骗行为„电话呼叫模型:呼叫目的地,持续时间,日或周呼叫次数.分析该模型发现与期待标准的偏差‰零售产业„分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的‰反恐怖主义其他应用„体育竞赛‰美国NBA的29个球队中,有25个球队使用了IBM分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。„天文学‰JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星„网上冲浪‰通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究数据挖掘:数据库中的知识挖掘(KDD)‰数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库任务相关数据选数据挖掘模式评估知识挖掘的步骤„了解应用领域‰了解相关的知识和应用的目标„创建目标数据集:选择数据„数据清理和预处理:(这个可能要占全过程60%的工作量)„数据缩减和变换‰找到有用的特征,维数缩减/变量缩减,不变量的表示。„选择数据挖掘的功能‰数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等.„选择挖掘算法„数据挖掘:寻找感兴趣的模式„模式评估和知识表示‰可视化,转换,消除冗余模式等等„运用发现的知识数据挖掘和商业智能支持商业决策的潜能不断增长昀终用商业分析数据分析DBA决策支持数据表可视化技数据挖信息发数据探索在线分析处理(OLAP),多维分析统计分析,查询和报数据仓库/数据市数据论文,文件,信息提供商,数据库系统,联机事务处理系统体系结构:典型数据挖掘系统数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成在何种数据上进行数据挖掘„关系数据库„数据仓库„事务数据库„高级数据库系统和信息库‰空间数据库‰时间数据库和时间序列数据库‰流数据‰多媒体数据库‰面向对象数据库和对象-关系数据库‰异种数据库和遗产(legacy)数据库‰文本数据库和万维网()空间数据库„空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。„常见的空间数据库数据类型‰地理信息系统(GIS)‰遥感图像数据‰医学图像数据„数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索时间数据库和时间序列数据库„时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的时间。时间序列数据库存放随时间变化的值序列。„对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。流数据„与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。„主要应用场合‰网络监控‰网页点击流‰股票市场‰流媒体…等等„与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。多媒体数据库„多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。„对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。面向对象数据库和对象-关系数据库„面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。„对象-关系数据库基于对象-关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。„面向对象数据库和对象-关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。异构数据库和历史(legacy)数据库„历史数据库是一系列的异构数据库系统的集合,包括各同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。„有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。„对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。„WEBSERVICE技术的出现有利于历史数据库数据的重新利用。文本数据库和万维网()„文本数据库存储的是对对象的文字性描述。„文本数据库的分类‰无结构类型(大部分的文本资料和网页)‰半结构类型(XML数据)‰结构类型(图书馆数据)„万维网()可以被看成昀大的文本数据库„数据挖掘内容‰内容检索‰WEB访问模式检索数据挖掘的主要方法(1)„概念/类描述:特性化和区分‰归纳,总结和对比数据的特性。比如:对每个月来网站购物超过5000元的顾客的描述:40-50岁,有正常职业,信用程度良好。„关联分析‰发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。‰广泛的用于购物篮或事务数据分析。数据挖掘的主要方法(2)„分类和预测‰通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。„比如:按气候将国家分类,按汽油消耗定额将汽车分类‰导出模型的表示:判定树、分类规则、神经网络‰可以用来预报某些未知的或丢失的数字值„聚类分析‰将类似的数据归类到一起,形成一个新的类别进行分析。‰昀大化类内的相似性和昀小化类间的相似性数据挖掘的主要方法(3)„孤立点分析‰孤立点:一些与数据的一般行为或模型不一致的孤立数据‰通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。„趋势和演变分析‰描述行为随时间变化的对象的发展规律或趋势„趋势和偏差:回归分析„序列模式匹配:周期性分析„基于类似性的分析„其他定向模式或统计分析所有模式都是有趣的吗?„数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。„模式兴趣度的度量‰一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设„模式兴趣度的客观和主观度量‰客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等‰主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等能够产生所有有趣模式并且仅产生有趣模式吗?„找出所有有趣的模式:数据挖掘算法的完全性问题‰数据挖掘系统能够产生所有有趣的模式吗?‰试探搜索vs.穷举搜索‰关联vs.分类vs.聚类„只搜索有趣的模式:数据挖掘算法的昀优化问题‰数据挖掘系统可以仅仅发现有趣的模式吗?‰方法„首先生成所有模式然后过滤那些无趣的.„仅仅生成有趣的模式—挖掘查询优化数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘系统的分类„一般功能‰描述性的数据挖掘‰预测性的数据挖掘„不同的视角,不同的分类‰根据所挖掘的数据库类型分类‰根据挖掘的知识类型分类‰根据挖掘所用的技术分类‰根据数据挖掘的应用分类多种数据挖掘的视角„根据所挖掘的数据库分类‰关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,„根据挖掘的知识类型‰特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等.‰多种方法的集成和多层机挖掘„根据挖掘所用的技术‰面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等等.„根据挖掘所用的应用‰金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等.OLAP挖掘:数据挖掘技术和数据仓库技术的集成„数据挖掘系统、数据库管理系统和数据仓库系统的耦合‰无耦合,松耦合,半紧耦合,紧耦合„联机分析和挖掘数据(OLAM)‰挖掘和OLAP(联机分析处理)技术的集成„多个抽象层的交互知识挖掘‰在不同层次上通过交互地在数据空间和知识空间下钻、上卷和转轴来挖掘知识和模式的必要性.„多种挖掘功能的集成‰特性化分类,先聚类分析后关联分析OLAM体系结构数据

1 / 386
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功