DataWarehousingandOnlineAnalyticalProcessing数据仓库与联机分析处理技术DataWarehousingandOnlineAnalysisProcessingMarch2013YunhaiTongSchoolofElectronicsEngineeringandComputerScience,PekingUniversityDataWarehousingandOnlineAnalyticalProcessing第一章数据仓库基本概念Chap1IntroductiontoDataWarehouseYunhaiTongSchoolofElectronicsEngineeringandComputerScience,PekingUniversity19March2013DataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库技术产生的背景数据管理技术发展的角度应用需求发展的角度数据仓库的概念及其特点数据仓库的应用DataWarehousingandOnlineAnalyticalProcessing信息体系:信息金字塔DataInformationKnowledgeWisdom知识选择信息+理解或推理数据+意义事实的记录处理(相互关系)归纳、演绎、比较(模式)判断、选择(基本原理)信息淹没在数据中,知识淹没在信息中,而智慧淹没在知识中DataWarehousingandOnlineAnalyticalProcessing数据管理技术的发展1970s1980s1990s1960s•集中于原始文件的处理•层次数据库和网状数据库•关系数据模型和关系数据库管理系统•E-R模型、SQL语言、查询处理和优化•面向对象数据库•对象-关系数据库•主动、演绎、模糊数据库•空间、时空、统计数据库•数据仓库•联机分析处理•数据挖掘•数据集成、挖掘•多媒体数据库•Web数据库•XML数据库•DataStream数据分析数据管理复杂类型简单类型海量数据少量数据2000s2000sDataWarehousingandOnlineAnalyticalProcessing回顾几个概念数据模型数据模型的组成:数据结构、数据操作和完整性约束条件数据模型包含的层次概念模型:确定系统边界和范围逻辑模型:确定系统的功能物理模型:确定系统的性能结构化查询语言SQL索引和分区IBMDataWarehousingandOnlineAnalyticalProcessing现有的数据库系统的侧重点现有的数据库系统,主要用于事务处理一笔存款(一张存款单)一笔取款(一张取款单)一笔转帐(一张转帐单)一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性DataWarehousingandOnlineAnalyticalProcessing数据查询举例查询2005年3月19日在工行北京分行海淀支行办理牡丹灵通卡挂失业务的客户资料数据库方法(机构(机构名称=“工行北京分行海淀支行”)[机构代码]*卡资料表(卡状态=“挂失”^业务发生时间=“03/19/2002”^类别=“牡丹灵通卡”)[机构代码、客户号]*客户信息)[姓名,性别,单位,电话…]文件方法由应用程序实现,一段不小的程序(过程),包括打开、关闭文件,读、写一个记录DataWarehousingandOnlineAnalyticalProcessing关系数据库管理系统关注的技术存储结构和文件组织多级存储、缓冲区管理、记录组织索引技术顺序索引、B+树索引、散列索引、多维索引查询优化关系表达式的转换、基于代价的优化、启发式的优化并发控制基于锁(时间戳)等的协议,死锁的处理技术系统恢复高级事务处理高性能事务处理、长事务处理、实时事务处理、事务工作流DataWarehousingandOnlineAnalyticalProcessing数据管理研究面临的挑战海量的数据集Terabytes--10^12bytes:Walmart--24TerabytesPetabytes--10^15bytes:GeographicInformationSystemsExabytes--10^18bytes:NationalMedicalRecordsZettabytes--10^21bytes:WeatherimagesZottabytes--10^24bytes:IntelligenceAgencyVideosDataWarehousingandOnlineAnalyticalProcessing广泛的数据分布World-WideWebDistributeddatabasesforthe00’s复杂性:复杂数据类型及其查询和检索技术ComplexdatatypesComplexobjectsExtensiblequeryprocessingenginesIndexingnewdatatypes数据管理研究面临的挑战DataWarehousingandOnlineAnalyticalProcessing数据遗产问题导致数据集成问题DBMSintegration:tryingtosemi-transparentlygluedifferentkindsofdatabasesystemstogetherSchemaintegration:tryingtofigureouthowdifferentschemasfittogetherDataintegration:tryingtodetectandresolvevalueconflicts数据管理研究面临的挑战DataWarehousingandOnlineAnalyticalProcessing我们已经被数据所淹没……无法发现所需的数据数据散落在网络环境之中不同版本、不同粒度的数据无法获得所需的数据得到数据需要专家的参与无法理解得到的数据数据可用,但是文档不够无法使用得到的数据结果不可预知数据需要进行不断的转换之后,才能使用DataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库技术产生的背景数据管理技术发展的角度应用需求发展的角度数据仓库的概念及其特点数据仓库的应用DataWarehousingandOnlineAnalyticalProcessing电子化、信息化、数字化信息化国民经济与社会信息化金融信息化、企业信息化农业信息化社区信息化……电子化电子政务电子商务电子校务……数字化数字地球数字中国数字城市数字社区……社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史DataWarehousingandOnlineAnalyticalProcessing应用驱动-商业信息化的发展趋势数据集中化业务综合化管理扁平化决策科学化特点以客户为中心:优化客户关系以服务求发展:创造竞争优势DataWarehousingandOnlineAnalyticalProcessing应用驱动-商业硬件技术的发展,计算机及其相关设备成本大幅度降低,数据存储和处理能力大大增强大量信息系统投入运行,海量数据积累,出现了“数据爆炸”问题银行(包括信用卡)的交易数据超市的交易数据Web数据和电子商务系统的交易数据……现有的信息系统大多属于事务(Transaction)处理系统或OA系统,提高了劳动生产率数据极大丰富,知识极其匮乏数据是一种宝贵的资源,没有充分发挥作用DataWarehousingandOnlineAnalyticalProcessing从金融信息化的角度“数据集中化、业务综合化”,极大推动了金融行业的信息化建设进程,提高了劳动生产率,同时也积累了大量的数据数据中心27000个营业网点3000万笔联机交易/天营业网点14000台ATM280万笔交易/天ATM80000台POS26万笔交易/天POS56万笔交易/天呼叫中心871万网银个人客户55万笔交易/天8万网银企业客户18万笔交易/天网银客户1294万信用卡9320万借记卡280万笔交易/天卡客户DataWarehousingandOnlineAnalyticalProcessing从金融信息化的角度“管理扁平化、决策科学化”成为金融行业在激烈竞争中创造优势的重要手段优化客户管理,提供高质量、个性化的服务客户分类分析、行为分析、满意度分析、忠诚度分析发挥金融创新,推出创新产品交叉销售、营销策略构建企业级数据仓库、开发深层次的数据挖掘应用DataWarehousingandOnlineAnalyticalProcessing应用驱动-科学研究数据的采集和存储增长的速度惊人(GB/hour)卫星遥感数据(50GB/hour)天文观测数据(18TB/day):虚拟天文台DNA微阵列(Microarray)技术产生海量基因表达数据科学模拟数据传统的技术无法处理这类数据,呼唤强大的智能型自动数据分析技术和工具对数据进行有效预处理对数据进行分割和分类DataWarehousingandOnlineAnalyticalProcessing企业生产人员关心的问题哪些是公司的近期客户、长远客户?公司客户包括哪些?其分布情况如何?各自关心和购买产品是哪些?哪些客户将最有可能成为流失客户?哪些是产品/服务增长的主要因素?哪些产品的提升是公司利润增长的重要因素?哪些分销渠道是高效的渠道?DataWarehousingandOnlineAnalyticalProcessing分析处理的需求今年销售量下降的因素时间:销售地区:(销售*顾客)[顾客所在的地区,…]商品:(销售*订单细则)[商品类别,…]销售部门:销售*员工*部门[部门名称,…]持卡人今年的交易情况与以往相比的变化交易特点(存款、取款、转帐、消费)分析持卡人消费倾向(宾馆/商场/超市等)分析多个子系统中的数据(数据集成)历史数据汇总、综合的数据一致的数据视图DataWarehousingandOnlineAnalyticalProcessing分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求PowerAnalystKnowledgeWorkerExecutive/ManagerCustomerContactDataWarehousingandOnlineAnalyticalProcessing分析决策人员的挑战组织之间合作伙伴客户驱动的解决方案战略联盟价值链和供应链市场竞争对手市场分割实时的市场行情全球化组织内部横向共享信息数据的重构个人授权服务和质量管理DataWarehousingandOnlineAnalyticalProcessing事务数据库支持分析型应用:具体问题数据可信性生产率不可能把数据转换成信息数据动态集成问题历史数据问题数据的综合问题:非细节数据,多种程度的综合DataWarehousingandOnlineAnalyticalProcessing数据可信性数据没有同一时间基准例如:一个企业的两个部门向管理者呈送报表部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%算法不同部门A使用的是旧帐号部门B使用的是大帐号多次抽取,扩大了上述两个问题,逐步形成“蜘蛛网”问题DataWarehousingandOnlineAnalyticalProcessing在实际中经常存在这样…DataWarehousingandOnli