chap 1 数据仓库概述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

DataWarehousingandOnlineAnalyticalProcessing数据仓库与联机分析处理技术DataWarehousingandOnlineAnalysisProcessingMarch2013YunhaiTongSchoolofElectronicsEngineeringandComputerScience,PekingUniversityDataWarehousingandOnlineAnalyticalProcessing第一章数据仓库基本概念Chap1IntroductiontoDataWarehouseYunhaiTongSchoolofElectronicsEngineeringandComputerScience,PekingUniversity19March2013DataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库技术产生的背景数据管理技术发展的角度应用需求发展的角度数据仓库的概念及其特点数据仓库的应用DataWarehousingandOnlineAnalyticalProcessing信息体系:信息金字塔DataInformationKnowledgeWisdom知识选择信息+理解或推理数据+意义事实的记录处理(相互关系)归纳、演绎、比较(模式)判断、选择(基本原理)信息淹没在数据中,知识淹没在信息中,而智慧淹没在知识中DataWarehousingandOnlineAnalyticalProcessing数据管理技术的发展1970s1980s1990s1960s•集中于原始文件的处理•层次数据库和网状数据库•关系数据模型和关系数据库管理系统•E-R模型、SQL语言、查询处理和优化•面向对象数据库•对象-关系数据库•主动、演绎、模糊数据库•空间、时空、统计数据库•数据仓库•联机分析处理•数据挖掘•数据集成、挖掘•多媒体数据库•Web数据库•XML数据库•DataStream数据分析数据管理复杂类型简单类型海量数据少量数据2000s2000sDataWarehousingandOnlineAnalyticalProcessing回顾几个概念数据模型数据模型的组成:数据结构、数据操作和完整性约束条件数据模型包含的层次概念模型:确定系统边界和范围逻辑模型:确定系统的功能物理模型:确定系统的性能结构化查询语言SQL索引和分区IBMDataWarehousingandOnlineAnalyticalProcessing现有的数据库系统的侧重点现有的数据库系统,主要用于事务处理一笔存款(一张存款单)一笔取款(一张取款单)一笔转帐(一张转帐单)一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性DataWarehousingandOnlineAnalyticalProcessing数据查询举例查询2005年3月19日在工行北京分行海淀支行办理牡丹灵通卡挂失业务的客户资料数据库方法(机构(机构名称=“工行北京分行海淀支行”)[机构代码]*卡资料表(卡状态=“挂失”^业务发生时间=“03/19/2002”^类别=“牡丹灵通卡”)[机构代码、客户号]*客户信息)[姓名,性别,单位,电话…]文件方法由应用程序实现,一段不小的程序(过程),包括打开、关闭文件,读、写一个记录DataWarehousingandOnlineAnalyticalProcessing关系数据库管理系统关注的技术存储结构和文件组织多级存储、缓冲区管理、记录组织索引技术顺序索引、B+树索引、散列索引、多维索引查询优化关系表达式的转换、基于代价的优化、启发式的优化并发控制基于锁(时间戳)等的协议,死锁的处理技术系统恢复高级事务处理高性能事务处理、长事务处理、实时事务处理、事务工作流DataWarehousingandOnlineAnalyticalProcessing数据管理研究面临的挑战海量的数据集Terabytes--10^12bytes:Walmart--24TerabytesPetabytes--10^15bytes:GeographicInformationSystemsExabytes--10^18bytes:NationalMedicalRecordsZettabytes--10^21bytes:WeatherimagesZottabytes--10^24bytes:IntelligenceAgencyVideosDataWarehousingandOnlineAnalyticalProcessing广泛的数据分布World-WideWebDistributeddatabasesforthe00’s复杂性:复杂数据类型及其查询和检索技术ComplexdatatypesComplexobjectsExtensiblequeryprocessingenginesIndexingnewdatatypes数据管理研究面临的挑战DataWarehousingandOnlineAnalyticalProcessing数据遗产问题导致数据集成问题DBMSintegration:tryingtosemi-transparentlygluedifferentkindsofdatabasesystemstogetherSchemaintegration:tryingtofigureouthowdifferentschemasfittogetherDataintegration:tryingtodetectandresolvevalueconflicts数据管理研究面临的挑战DataWarehousingandOnlineAnalyticalProcessing我们已经被数据所淹没……无法发现所需的数据数据散落在网络环境之中不同版本、不同粒度的数据无法获得所需的数据得到数据需要专家的参与无法理解得到的数据数据可用,但是文档不够无法使用得到的数据结果不可预知数据需要进行不断的转换之后,才能使用DataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库技术产生的背景数据管理技术发展的角度应用需求发展的角度数据仓库的概念及其特点数据仓库的应用DataWarehousingandOnlineAnalyticalProcessing电子化、信息化、数字化信息化国民经济与社会信息化金融信息化、企业信息化农业信息化社区信息化……电子化电子政务电子商务电子校务……数字化数字地球数字中国数字城市数字社区……社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史DataWarehousingandOnlineAnalyticalProcessing应用驱动-商业信息化的发展趋势数据集中化业务综合化管理扁平化决策科学化特点以客户为中心:优化客户关系以服务求发展:创造竞争优势DataWarehousingandOnlineAnalyticalProcessing应用驱动-商业硬件技术的发展,计算机及其相关设备成本大幅度降低,数据存储和处理能力大大增强大量信息系统投入运行,海量数据积累,出现了“数据爆炸”问题银行(包括信用卡)的交易数据超市的交易数据Web数据和电子商务系统的交易数据……现有的信息系统大多属于事务(Transaction)处理系统或OA系统,提高了劳动生产率数据极大丰富,知识极其匮乏数据是一种宝贵的资源,没有充分发挥作用DataWarehousingandOnlineAnalyticalProcessing从金融信息化的角度“数据集中化、业务综合化”,极大推动了金融行业的信息化建设进程,提高了劳动生产率,同时也积累了大量的数据数据中心27000个营业网点3000万笔联机交易/天营业网点14000台ATM280万笔交易/天ATM80000台POS26万笔交易/天POS56万笔交易/天呼叫中心871万网银个人客户55万笔交易/天8万网银企业客户18万笔交易/天网银客户1294万信用卡9320万借记卡280万笔交易/天卡客户DataWarehousingandOnlineAnalyticalProcessing从金融信息化的角度“管理扁平化、决策科学化”成为金融行业在激烈竞争中创造优势的重要手段优化客户管理,提供高质量、个性化的服务客户分类分析、行为分析、满意度分析、忠诚度分析发挥金融创新,推出创新产品交叉销售、营销策略构建企业级数据仓库、开发深层次的数据挖掘应用DataWarehousingandOnlineAnalyticalProcessing应用驱动-科学研究数据的采集和存储增长的速度惊人(GB/hour)卫星遥感数据(50GB/hour)天文观测数据(18TB/day):虚拟天文台DNA微阵列(Microarray)技术产生海量基因表达数据科学模拟数据传统的技术无法处理这类数据,呼唤强大的智能型自动数据分析技术和工具对数据进行有效预处理对数据进行分割和分类DataWarehousingandOnlineAnalyticalProcessing企业生产人员关心的问题哪些是公司的近期客户、长远客户?公司客户包括哪些?其分布情况如何?各自关心和购买产品是哪些?哪些客户将最有可能成为流失客户?哪些是产品/服务增长的主要因素?哪些产品的提升是公司利润增长的重要因素?哪些分销渠道是高效的渠道?DataWarehousingandOnlineAnalyticalProcessing分析处理的需求今年销售量下降的因素时间:销售地区:(销售*顾客)[顾客所在的地区,…]商品:(销售*订单细则)[商品类别,…]销售部门:销售*员工*部门[部门名称,…]持卡人今年的交易情况与以往相比的变化交易特点(存款、取款、转帐、消费)分析持卡人消费倾向(宾馆/商场/超市等)分析多个子系统中的数据(数据集成)历史数据汇总、综合的数据一致的数据视图DataWarehousingandOnlineAnalyticalProcessing分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求PowerAnalystKnowledgeWorkerExecutive/ManagerCustomerContactDataWarehousingandOnlineAnalyticalProcessing分析决策人员的挑战组织之间合作伙伴客户驱动的解决方案战略联盟价值链和供应链市场竞争对手市场分割实时的市场行情全球化组织内部横向共享信息数据的重构个人授权服务和质量管理DataWarehousingandOnlineAnalyticalProcessing事务数据库支持分析型应用:具体问题数据可信性生产率不可能把数据转换成信息数据动态集成问题历史数据问题数据的综合问题:非细节数据,多种程度的综合DataWarehousingandOnlineAnalyticalProcessing数据可信性数据没有同一时间基准例如:一个企业的两个部门向管理者呈送报表部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%算法不同部门A使用的是旧帐号部门B使用的是大帐号多次抽取,扩大了上述两个问题,逐步形成“蜘蛛网”问题DataWarehousingandOnlineAnalyticalProcessing在实际中经常存在这样…DataWarehousingandOnli

1 / 70
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功