数据挖掘报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

目录一.数据挖掘概念背景概念典型数据挖掘系统结构数据挖掘的对象二.数据仓库和数据挖掘的OLAP技术关系数据数据仓库事务数据库高级数据库系统和高级数据库应用三.数据挖掘技术概念描述关联分析分类和预测聚类分析孤立点分析四.数据挖掘在零售业中的应用五.数据挖掘的发展趋势六.数据挖掘软件的发展一、数据挖掘概念----原由数据挖掘数据库越来越大有价值的知识可怕的数据一、数据挖掘概念----原由数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期一.数据挖掘的概念1995年,在加拿大蒙特利尔召开了第一届知识发现和数据挖掘国际学术会议,数据挖掘一词被很快流传开来。数据挖掘(DM:DatMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。典型数据挖掘系统结构图形用户界面模式评估数据挖掘引擎数据库或数据仓库服务器数据库数据仓库数据清理数据集成过滤知识库数据挖掘的对象关系数据库数据仓库事务数据库高级数据库系统和高级数据库应用二.数据仓库和数据挖掘的OLAP技术数据仓库的概念多维数据模型多维数据模型上的OLAP操作数据仓库的概念W.H.Inman:数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。面向主题的:数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。集成的:数据仓库将多个异种数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。时变的:数据存储从历史的角度提供信息。非易失的:数据仓库总是物理地分离存放数据;多维数据模型最流行的数据仓库数据模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式形式存在。星型模式:数据仓库包括一个事实表,一组维表。事实表包含大批数据且不含冗余。雪花模式:雪花模式是星型模式的变种。雪花模式的维表可能是规范化形式,以便减少冗余。但是执行查询时需要更多连接操作,可能会降低浏览的性能。事实星座模式:对于需要多个事实表共享维表的复杂应用采用事实星座模式。Time_keyItem_keyBranch_keyLocation_keyDollars_soldUnits_soldTime_keyDayDay_of_the_weekMonthQuarterYearItem_keyItem_namebrandtypeSupplier_typeBranch_keyBranch_nameBranch_typeLocation_keyStreetCityProvince_or_statecountrySales数据仓库的星型模式Time维表item维表branch维表location维表Sale事实表多维数据模型上的OLAP操作概念分层:概念分层定义一个映射序列,将低层概念映射到更一般的高层概念。模式分层:是数据库模式属性间的全序或偏序。可以形式地表示属性间的语义联系。如关系模式address,包含属性street,city,province-or-state和country,可用如下全序定义location模式分层结构:streetcityprovince_or_statecountryallcanadausaBritishcolumbiaontariovancouvervictoriatorontoottawaNewyorkbuffaloNewyorkIIIinoischicagolocationallcountryProvince_or_statecity多维数据模型上的OLAP操作集合分组分层:将给定属性或维的值组织成常量组或区间组,定义全序或偏序。{young,middle_aged,senior}all(age){20…39}young{40…59}middle_aged{60…89}senior操作导出的分层:根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码串的解码,由复杂数据对象提取信息和数据聚类。例:一个e-mail地址可能包含涉及部门、学校(或公司)和国家的层次信息。可以使用解码操作来提取信息,形成概念分层。dmbook@cs.sfu.ca给出偏序login-namedepartmentuniversitycountry,形成了e-mail地址的一个概念分层。多维数据模型上的OLAP操作基于规则的分层:由一组规则定义一个概念分层。如下面的规则可将商品分类为low_profit_margin,medium_profit_margin和high_profit_margin。其中,商品x的价格差定义为x的销售价格和实际价格的差。low_profit_margin(x)price(x,p1)cost(x,p2)((p1-p2)50)medium_profit_margin(x)price(x,p1)cost(x,p2)((p1-p2)50)((p1-p2)250)high_profit_margin(x)price(x,p1)cost(x,p2)((p1-p2)250)多维数据模型上的OLAP操作上卷(roll-up):通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。下钻(drill-down):通过沿维的概念分层向下或引入新的未来实现。切片或切块:切片(slice)操作在给定的数据立方体的一个维上进行选择,导致一个子方。切块(dice)操作通过对两个或多个维执行选择,定义子方。转轴(pivot):转动数据的视角,提供数据的替代表示。三.数据挖掘的功能概念描述:特征化和区分关联分析分类和预测聚类分析孤立点分析演变分析概念描述:特征化和区分概念描述是指用汇总的、简洁的、精确的方式描述每个类或概念。数据特征化是目标类数据的一般特征或特征的汇总.数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征比较.基于汇总的数据特征化数据立方体(或OLAP)方法:(面向数据仓库)面向属性的归纳方法(AOI):面向关系数据库查询的、基于概化的、联机的数据分析处理技术。AOI基本思想:首先使用关系数据库查询收集任务相关的数据:然后考察任务相关数据中的每个属性的不同值的个数,进行概化。概化通过属性删除或属性概化进行。属性删除:如果初始工作关系的某个属性有大量不同的值,但(1)在此属性上没有概化操作符:在该属性没有定义概念分层),(2)它的高层概念用其他属性表示,则该属性应该从工作关系中删除。属性概化:如果初始工作关系的某个属性有大量不同的值,并且该属性上存在概化操作符,则应该选择该概化操作符,并将它用于该属性。属性概化阈值控制:一般情况下,数据挖掘系统有一个缺省的属性阈值,取值范围为2到8。概化关系阈值控制:这样的阈值也可以在数据挖掘系统中预先设定,一般取值为10~30。例3-1:假定用户想描述big_university数据库中研究生的一般特征。给定属性:name,gender,major,birth_place,birth_date,residence,phone#(电话号码)和gpa(平均等级分)。该特征的数据挖掘查询可以用数据挖掘查询语言DMQL表示如下:usebig_university_dbminecharacteristicsas“science_students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin“graduate”转化数据挖掘查询为关系查询。usebig_university_dbselectname,gender,major,birth_date,residence,phone#,gpafromstudentwherestatusin{“M.SC.”,”M.A.”,”M.B.A”,”Ph.D”}初始工作关系:任务相关数据的集合namegendermajorBirth_placeBirth_dateresidencePhone#gpajimMCSVancouver,BC,Canda8-12-763511MainSt.,Richmond687-45983.67scottMCSMontreal,Que,Canada28-7-75345lstAve.,Richmond253-91063.70leeFphysicsSeattle,WA,USA25-8-70125AustinAve.,Burnaby420-52323.83…………面向属性的归纳过程如下:1)name:该属性存在大量不同值,并且该属性没有概化操作符,该属性被删除。2)gender:由于gender只有两个不同值,该属性保留,并且不对其进行概化。3)major:假定已定义了一个概念分层,允许将属性major概化到值{arts&science,engineering,business}还假定该属性的概化阈值设置为5,且初始关系中major有20不同值。根据属性概化控制,major沿概念分层向上攀升被概化。4)birth_place:该属性有大量不同值,因此应当概化它。假定存在birth_place的概念分层,定义为cityprovince_or_statecountry。如果初始工作关系中country的不同值个数大于属性概化阈值,则birth_place应当删除,因为尽管存在概化操作符,概化阈值也不会满足。如果假定country的不同值个数小于概化阈值,则birth_place应概化到birth_country.......5)birth_date:假定存在概念分层,可以将birth_date概化到age_range,并age_range的不同值数小于对应的属性概化阈值,则应当对birth_date进行概化.6)residence:假定residence被属性number,street,residence_city,residence_province_or_state和residence_country定义.number和street的不同值多半很多,因为这些概念的层次相当低.因此,number和street应当删除,将residence概化到residence_city.7)phone#:与上面的属性name一样,该属性包含太多不同值,因此应当在概化中删除.8)gpa:假定存在gpa的概念分层,将等级分成数据区间,如{3.75-4.0,3.5-3.75,…}它又按描述值{excellent,verygood,…}分组,这样,该属性可以被概化.通过面向属性归纳得到广义关系:gendermajorBirth_countryAge_rangeResidence_citygpacountMScienceCanda20…25RichmondVery_good16FScienceforeign25…30Burnabyexcellent22…………………属性相关分析-信息增益技术前提假设:S是训练样本的集合,每个样本的类标号是已知的,每个样本是一个元组,一个属性用于确定训练样本的类.例如属性status可以用于定义每个样本的类标号,或是graduate,或是undergraduate.这里假设m个类.设S包含Si个Ci类样本,i=1,…,m.一个任意样本属于类Ci的可能性是si/s,其中s是集合中S中对象的总数.给定样本分类所需的期望信息:(s1,s2,…,sm)=-si/slog2si/sI=1每个属性A的熵:E(A)=(s1j+…+smj)/s*I(s1j+…s

1 / 76
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功