数据仓库(DW),商业智能(BI)与数据挖掘(DM)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库(DW),商业智能(BI)与数据挖掘(DM)感觉CU初入门或对这些很不了解的朋友还是很多,有必要简单介绍下其核心关联和区别。严格地来说,DW/BI/DM在一个企业的应用中是融在一起,甚至一个大项目中进行的。但从系统的角度来说,就有微妙的关系了,不过要了解其本质,无论你怎么分,那也不会范晕。数据仓库从系统角度来看,就是数据库为核心的后台系统,绝大多数项目中,它是BI/DM应用的基础数据平台,同时也是数据管理平台,于是有的企业将其功能扩大化,加入了新的技术理念,于是称之为数据中心。一般从业务角度来看,企业的数据中心不但为BI服务,还有企业数据质量管理、主数据管理、数据交互平台等多功能。BI从广泛的角度来看,往往包含了后台数据仓库系统,以及高级BI应用DM。而我们将DW和DM单独谈论之后,我们常说的狭义BI就仅仅是统一定义和统一平台的报表平台和多维分析平台了。DM从广义角度来看,报表分析出来的粗略结果,OLAP分析出来的结果,也可以成为数据挖掘。不过狭义的DM当然是通过专业工具用某种算法来演算出一个结论来。不过目前多数应用在算法理论阶段,其实喜欢这个方向的朋友大可多研究算法在实际分析的应用,而非理论算法,这样才是目前企业最急需的东西。从DW的角度来看,会在数据集市为DM准备好数据,往往是数百个维和度量一起提供给DM去演算,才能得出可能符合需求的结果。1数据挖掘1.1数据挖掘与传统数据分析的区别数据挖掘与传统的数据分析,如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。1.2数据挖掘的应用价值(1)分类:首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。(2)估计:与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类是确定数目的,估计是不确定的。(3)聚类:是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统,对用户wap上网的行为进行聚类分析,通过客户分群,进行精确营销。(4)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。(5)预测:通过分类或估值得出模型,该模型用于对未知变量的预言。(6)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。除此之外,在客户分析,运筹和企业资源的优化,异常检测,企业分析模型的管理的方面都有广泛使用价值。2数据仓库2.1数据仓库的特征(1)面向主题(SubjectOriented)的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。(2)集成(Integrated)的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。(3)时变(TimeVariant)的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。(4)非易失(Nonvolatile)的数据集合。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。

1 / 2
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功