尿布与啤酒与数据挖掘技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

尿布与啤酒与数据挖掘技术2007年01月13日00:52:25来源:中国传媒科技】【Email推荐:进入传媒图库更多主持人图片原标题:数据挖掘技术数据的含义很广,不仅指321、897这样一些数字,还指abc、李明、96/10/11等符号、字符、日期形式的数据。我们讨论的数据是指存放在计算机系统中的任何东西,如:数字、字符、声音、图像、照片、……等等,甚至处理数据的计算机程序本身也作为计算机的数据。随着国民经济和社会信息化的发展,人们在计算机系统中存放的数据量越来越大。我们发现这些数据是人们工作、生活和其他行为的记录,是企业和社会发展的记录,也是人与自然界本身的描述。这就是说在计算机系统中形成了庞大的数据资源。因此,发现这些数据所含的规律也就是发现我们工作、生活和社会发展中的规律,发现人与自然界的规律,就相当于在数据资源中发现金矿。这就是数据资源的开发利用,是非常有价值的工作。而数据挖掘是目前最先进的数据资源开发利用技术。1、什么是数据挖掘我们先来看一个数据挖掘的故事,尿布与啤酒的故事是关于数据挖掘最经典和流传最广的故事。总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛(WalMart)拥有世界上最大的数据仓库系统。为了能够准确了解顾客在其门店的购买习惯,沃尔玛利对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!这是数据挖掘技术对历史数据进行分析的结果,反映数据内在的规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?于是,沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就在其一个个门店将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。那么数据挖掘是什么样的技术呢?数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。但在具体实施数据挖掘应用时,还要有一个步骤就是结果评价。这是因为数据算法寻找出来的是数据的规律,其中有些是人们感兴趣的有用的,还有一些可能是不感兴趣的没有用的。这就要对寻找出的规律进行评估。例如:跟尿布一起购买最多的商品是啤酒这样一条规律是否有用呢?这就需要市场调查和评估工程师根据实际情况做出评估判断。这是一个人工步骤,还难以自动化。数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。数据挖掘分为描述性和预测性两类。描述性数据挖掘提供数据的一般规律;预测性数据挖掘产生关于数据的预测。数据挖掘的主要内容有:关联分析:寻找数据项之间感兴趣的关联关系。例如:我们可以通过对交易数据的分析可能得出86%买'啤酒'的人同时也买'尿布'这样一条啤酒和尿布之间的关联规则。演变分析:描述时间序列数据随时间变化的数据的规律或趋势,并对其建模。包括时间序列趋势分析、周期模式匹配等。例如:通过对交易数据的演变分析,可能会得到89%情况股票X上涨一周左右后,股票Y会上涨这样一条序列知识。聚类分析:根据最大化类内的相似性、最小化类间的相似性的原则将数据对象聚类或分组,所形成的每个簇(聚类)可以看作一个数据对象类,用显式或隐式的方法描述它们。也就是我们常说的物以类聚人以群分。分类分析:找出描述并区分数据类的模型(可以是显式或隐式),以便能够使用模型预测给定数据所属的数据类。例如:信用卡公司可以将持卡人的信誉度分类为:良好、普通和较差三类。分类分析通过对这些数据类的分析给出一个信誉等级的显式模型:信誉良好的持卡人是年收入在30000元到50000元之间,年龄在30至45岁之间,居住面积达90M2左右的人。这样对于一个新的持卡人,就可以根据他的特征预测其信誉度。异常分析:一个数据集中往往包含一些特别的数据,其行为和模式与一般的数据不同,这些数据称为异常。对异常数据的分析称为异常分析。它在欺诈甄别、网络入侵检测等领域有着广泛的应用。2、数据挖掘与数理统计差异数理统计和数据挖掘有着共同的目标:发现数据中的规律。并且,有许多数据挖掘工作还用了数理统计的算法或模型,还有,一些市场上所谓的数据挖掘工具软件却是统计软件或是从统计软件演变过来的。正因为如此,二者就成了最混淆的概念。我们认为二者在做法上是有很大不同的。手工与计算机由于统计学基础的建立在计算机的发明之前,所以许多统计学方法是可以手工实现的。对于很多统计学家来说,几百个数据或几十个变量就已经是很大的了。但这个大对于现在计算机中GB级的交易记录或几千万个客户信息来说相差太远了。很明显,面对这么多的数据,设计原则上可以用手工实现的统计方法和设计原则上有计算机数据仓库支持的数据挖掘方法是有很大不同的,很多统计模型和算法在处理大数据量时可能就会失去意义。这意味这计算机对于数据的分析和处理是关键的,而手工直接处理数据将变得不可行。用样本推断总体规律与直接找出总体的规律用样本推断总体规律是统计学的核心方法之一,而数据挖掘由于采用了计算机技术更关注对总体规律的分析。当然,数据挖掘也常常关注样本。例如我们的数据库中有某厂历年生产的1000万台电视机和对应1000万个客户的全部信息。在这种情形下,用样本构造某种模型或某个估计值来推断1000万台电视机的使用情况就没有价值了,我们可以通过数据挖掘直接找出总体的规律。但在一些预测性分析中,数据挖掘也常常使用样本。例如:对一个新产品的广告宣传活动进行响应率分析。对1000万人做该广告,实际应该有10万人响应。但通过一个样本分析发现:其中有三类人群对该广告的响应率较高。因此,就有针对性地对高响应率的100万人做了该广告,结果获得了8万人的响应。普遍规律与特定规律统计学研究问题的结果常常会得到一个统计模型,而这个模型是普遍适用的,而数据挖掘得到的是某个数据集的规律,常常不具有普遍意义。例如:掷硬币出现正反面的概率都是50%。但在某个赌场,一年中每天掷出硬币,其正面出现的次数在68%-93%之间,统计学中正反面出现的概率是50%的推断在这样一个总体中就没有价值了。模型和实验由于数学背景,统计学追求精确,建立一个模型并证明之,而不是象数据挖掘那样注重实验。这并不意味着数据挖掘工作者不注重精确,而只是说明如果精确的方法不能产生结果的话就会被放弃。例如:证券公司的一个业务回归模型可能会把保证金作为一个独立的变量,因为一般认为大的保证金会导致大的业务,所以花费高成本开设了大户室。但事实上经过对一年来的交易情况进行数据挖掘却发现:交易频度和赢利情况才是最重要的。说明:虽然有上述的差异,很多时候我们仍然可以这样说:将很多数理统计算法或模型写成计算机程序并能够用于大规模数据分析就变成了数据挖掘技术。3、数据挖掘技术研究首先出现的术语是知识发现(KnowledgeDiscoveryinDatabase,KDD)而不是数据挖掘。后来的相关学术会议也大都以KDD为名,个别使用数据挖掘和知识发现,但在数据库领域和工业界一直使用数据挖掘。在这一节,我们分别介绍数据挖掘研究、数据挖掘系统和数据挖掘应用的发展状况,并且在数据挖掘研究介绍中同时使用数据挖掘和知识发现术语。知识发现(KDD)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次(见表),规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。表:历届数据挖掘讨论会议(备注:从95年更名为国际会议)时间会议名称会议地址收录论文比例数参加会议人数1989.8WorkshoponKDD-1989Detroit,Michigan,USA2:1301991.7WorkshoponKDD-1991Anaheim,California,USA3.5:1461993.7WorkshoponKDD-1993Washington,USA3:1401994.7WorkshoponKDD-1994Seattle,Washington,USA1995.8KDD-1995Montreal,Canada4.5:13401996.8KDD-1996Portland,Oregon,USA5:14501997.8KDD-1997California,USA6:16001998.8KDD-1998NewYork,USA247:687731999.8KDD-1999SanDiego,CA,USA280:27600+2000.8KDD-2000Boston,MA,USA录用50800+2001.8KDD-2001SanFrancisco,CA,USA237:3113%900+2002.7KDD-2002Edmonton,Alberta,Canada307:4414%2003.8KDD-2003Washington,DC,USA298:4615%2004.8KDD-2004Seattle,WA,USA384:5414%600-9002005.8KDD-2005Chicago,Illinois,USA538:10119%600-9002006.8KDD-2006Philadelphia,PA,USA531:12023%2007.8KDD-2007SanJose,CA,USA除了美国人工智能协会主办的KDD年会外,还有许多的数据挖掘年会,包括PAKDD,PKDD,SIAM-DataMining,等。PAKDD(Pacific-AsiaConferenceonKnowledgeDiscoveryandDataMining)是亚太平洋地区数据挖掘会议。SIAM-DataMining(SocietyforIndustrialandAppliedMathematics)是SIAM组织召开的数据挖掘讨论会。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的KnowledgeandDataEngineering会刊领先在1993年出版了KDD技术专刊。不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊KnowledgeDiscoveryNuggets最为权威,如要免费订阅,只需向发送一份电子邮件即可,还可以下载各种各样的数据挖掘工具软件和典型的样本数据仓库,供人们测试和评价。另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版,可向dstrial@tgc.com提出免费订阅申请。在网上,还有一个自由论坛DMEmailClub,人们通过电子邮件相互讨论数据挖掘DMKD的热点问题。而国内较好的数据挖掘技术交流网站有复旦大学的数据挖掘讨论组htt

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功