第三章信息处理技术与方法(下)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

广东工业大学商学院ManagementInformationSystem主讲:何瑞卿广东工业大学商学院第四节商务智能与数据挖掘商务智能的起源数据仓库技术数据挖掘数据挖掘在商业中的应用第三章信息处理技术与方法广东工业大学商学院市场的竞争发展趋势从“大众化营销”到“差异化营销”的竞争;从“规模效益”到“深度效益”的竞争;从“单一销售”到“产业价值链营销”的竞争;广东工业大学商学院企业领导人如何面对激烈市场竞争带来的挑战?完善组织结构培养客户忠诚度拓大客户群增加产品、渠道品种加强成本控制提高营运效率防范风险………广东工业大学商学院其他管理运营数据竞争优势数据能直接带来竞争优势吗?广东工业大学商学院现在企业的问题不是数据太少,而是数据太多了广东工业大学商学院现有的数据状况传统的信息系统中数据受限于其应用面,最终出来的效果所表达的信息是割裂的,零碎的,如果不加处理与整合,甚至是自相矛盾的,因此这种数据积累的作用事实上只是一种备份。备份数据变成了“数据监狱”,数据一进去就十有八九成了“囚犯”,而数据一旦过时,要么就被束之高阁,无情地被判了无期徒刑,要么就象碎成纸片的机要文件一样被销毁了。广东工业大学商学院企业是个严密运作的复杂系统,每个细小环节的活动是彼此互相关联的;从零碎的、片段的企业局部化信息难以看清企业整体的变化;同时企业需要一种协同思考的能力;在这种背景下,商务智能应运而生!广东工业大学商学院什么是商业智能商业智能是用来实现数据向信息转变,信息向知识转变,知识向价值转变的这么一个过程,以及这个过程中所使用到的种种技术和工具。数据信息知识价值广东工业大学商学院个性化的界面商业智能工具的分析和提炼收集整理其他管理运营数据信息和知识分析数据采集数据使业务更加高效更大的效益企业信息门户正确的决策和行动分析人员银行领导员工广东工业大学商学院IBM认为商务智能是指一种能力:通过智能的使用你的数据财产来制定更好的商务决策。它的意思是说各种企业的决策人员以企业中的数据仓库(DataWarehouse)为本,经由各式各样的查询分析工具(Query/ReportTools)、联机分析处理(OnlineAnalyticalProcessing简称OLAP)工具、或是数据挖掘(DataMining)工具加上决策规划人员的行业知识(IndustryKnowledge),从数据仓储中获得有利的信息,进而帮助企业提高获利,增加生产力与竞争力。广东工业大学商学院学术界的观点是:BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。广东工业大学商学院根据国际数据公司(IDC)的一个关于65个公司的案例研究显示,在过去2、3年里,商务智能投资的平均回报超过了400%。根据商务智能的当前应用情况,发现商务智能广泛应用在零售、电信和保险、银行等行业。这些行业一般具有以下特征:(1)大量的顾客;这样才能产生足够多的可供分析的数据。(2)非常激烈的竞争并有差异化的需要;这些行业一般提供的都是差异化很小的产品,同时行业内的竞争又非常激烈,从而使差异化的服务成为企业必然选择。(3)能容易地收集到大量的电子数据。这些行业一般都有较完善的电子交易记录系统,可以很方便的收集到大量的电子交易数据。广东工业大学商学院广东工业大学商学院数据仓库1.数据仓库的概念数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、随时间变化的、分层次的多维的集成数据集合。它为不同层次的管理者提供敏捷性和实用性的决策支持。数据仓库具有两个主要作用:一是从各信息源提取决策需要的数据,加工处理后,存储到数据仓库中;二是用户的查询和决策分析的基础。广东工业大学商学院2.数据仓库特征1)面向主题(subjectoriented)在传统的信息系统中,对数据的处理是面向过程的或者是面向功能的。而面向过程的数据包括满足某种功能需求的数据,它们可能与决策问题有关也可能无关。广东工业大学商学院采购子系统:订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期,…)供应商(供应商号,供应商名,地址,电话,…)销售子系统:客户(客户号,姓名,地址,电话,…)销售(客户号,商品号,数量,单价,日期,…)库存子系统:进库单(编号,商品号,数量,单价,日期,…)出库单(编号,商品号,数量,单价,日期,…)库存(商品号,库房号,类别,单价,库存数量,总金额,日期,…)广东工业大学商学院商品固有信息:商品号,类别,单价,颜色,…商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,…商品销售信息:商品号,客户号,数量,单价,销售日期,…商品库存信息:商品号,库房号,库存数量,日期,…)商品主题域:采购子系统销售子系统库存子系统广东工业大学商学院从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。广东工业大学商学院2)集成化(integrated)数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。广东工业大学商学院数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。1985~1998年销售明细表1998~2003年销售明细表1998~2003年每月销售表1998~2003年每季度销售表广东工业大学商学院3)相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4)反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。广东工业大学商学院DW中数据量很大:通常的DW的数据量为10GB级,大型DW是一个TB(1000GB)级数据量。DB一般为几兆至100兆B。DW软硬件要求较高:需要一个巨大的硬件平台与一个并行的数据库系统(PDBS)。广东工业大学商学院整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。广东工业大学商学院3.OLAPOLAP的基本术语E.F.Codd的定义为:OLAP是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术,OLAP具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利迅速做出正确判断。广东工业大学商学院OLAP的基本分析方法1)维维是人们观察数据的特定角度。2)维的层次一个维往往具有多个层次,如描述时间维,可以从日期、月份、季度、年等不同层次来捕述,那么日期、月份、季度、年等就是时间维的层次;同样,城市、地区、国家等构成了一个地理维的多个层次。广东工业大学商学院(1)维成员。维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么,该维的维成员是在不同维层次的取值的组合。(2)多维数组。一个多维数组可以表示为:(维1,维2,…,维n,变量)。例如,日用品销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量销售额”,就组成了一个多维数组(地区,时间,销售渠道,销售额)。(3)数据单元。多维数组的取值称为数据单元。广东工业大学商学院OLAP的基本分析方法多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析方法,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵。广东工业大学商学院切片选定多维数组的一个二维子集的方法叫做切片,即选定多维数组(维1,维2,……,维n,变量)中的两个维:维I和维J,在这两个维上取某一区间或任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维I和j上一个二维子集,称这个二维子集为多维数在维I和维J上的一个切片,表示为;(维I,维j,变量)。广东工业大学商学院例如,选定多维数组(地区,时间,产品,销售额)中的地区维与产品维,在另外一维:时间维,选取一个维成员(如“2006年1月”),就得到了多维数组(地区,时间,产品,销售额)在产品和地区两维上的一个切片(客户,地区,销售额)。这个切片表示2006年1月各地区、各产品的销售情况。广东工业大学商学院产品销售情况2006.1产品销售情况选定两个维:产品维和地区维时间维数据切片产品维地区维产品维地区维广东工业大学商学院切块选定多维数的一个三维子集的方法称切块。即选定多维数组(维1,维2,……,维n,变量)中的三个维:维I、维j和维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维I、维j和维r上一个三维子集,我们称这个三维子集为多维数组在维I、维j和r上的一个切块,表示为:(维I,维j,维r,变量)。切块与切片的作用与目的是相似的。美国中国手机电脑图8-3三维立方体切块(Slice)广东工业大学商学院旋转旋转即是改变一个报告或面显示的维方向。例如,旋转可能包含了交换行和列;或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面的维进行交换(令其成为新一行或列中的一个)把一个横向为时间、纵向为产品的报表旋转成为横向为产品、维向为时间的报表。广东工业大学商学院2005年2006年部门1季度2季度3季度4季度1季度2季度3季度4季度部门一2012182722161929部门二2311241722311234部门三26213433212326321季度2季度3季度4季度部门2005年2006年2005年2006年2005年2006年2005年2006年部门一2022121618192729部门二2322113124121734部门三2621212334263332旋转前的有关数据描述旋转后的有关数据描述广东工业大学商学院钻取按时间维向下钻取按时间维向上钻取60广东工业大学商学院数据挖掘(从数据中发现知识)从海量数据中提取感兴趣(重要的,隐含的,以前未知的和潜在有用的)模式或知识数据挖掘:用词不当?其他的名称数据库中的知识发现(挖掘)(KDD),知识提取,数据/模式分析,数据考古学,数据捕捞,信息收获,商业智能等.当心:所有的都是“数据挖掘”么?简单的搜索和查询处理(演绎的)专家系统4.数据挖掘广东工业大学商学院为什么要数据挖掘?—潜在的应用数据分析和决策支持市场分析和管理目标市场定位,客户关系管理(CRM),购物篮分析,交叉销售风险分析和管理预测,客户保持,质量控制,竞争分析欺诈检测和不寻常模式的检测(离群点)其他的应用文本挖掘(新闻组,email,文档)和Web挖掘流数据挖掘生物信息学和生物数据分析广东工业大学商学院现实世界中的数据挖掘可以用来干什么?——搜索制造爆炸的恐怖分子美国联邦调查局(FBI)对地区调查员提交的大量报告进行审查,寻找和爆炸事件的联系。.使用链路分析,聚类和规则归纳等分析方法来识别可能的线索。数据挖掘的其他应用广东工业大学商学院知识发现(KDD)过程数据挖掘—知识发现过程的核心数据清理数据集成

1 / 59
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功