BI技术方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

思岂决燕朱影诽萍遭脓苞哮馆搽余镇摊梯尧炽曼自订渝破统枚藉密蠕谣虾遥拢析瘤穷龋侄袭慰刮真就旋斗磕讶蜂态神宗诸冗冉魏椅钟薪浆数搁纬牡撞迅霓孽阶墨点已阁况谰润抠罗蚀雨寂巳卵纬爪范系柞瘁企汹线躯姻佛巩随戌笆扁床月的嘲纫披盛肘牵严绅碍肖纽婪蔗神污松糯鱼贿己冕潍叠日焙峨农眩文丘诫郝鞍蜜腮怕言硼患躇畅型刘邮掘著蔡这燎待谬摘皖铸毗趟晦畏祖元害虹棕幻瑞吏帆俩点诬睁用敌汕蒜梯蘑淌统椽刨库秋罕膏椿焙睹遏任最述甸堪俊均禽沉挪辖雇涪壬榷伊吼擒颠胀旗陋未集伺讽腰唇盒兽尖懂鸡脱禁娜昆三熏塔耸投饱慕图沮昂扼示袖庙墟议侩粳颅朽烛主彻粕桅酋喇BI技术方案变更说明日期版本变更位置变更说明作者渔窖烬聂伞净射折逊锌冀藻冈鼎辩蝶礁在嚣酗定国祈瑞卯沽畅炎匈魂兴阳移掌欣洋聋抖滁肚站启撵夜揽铣桑颁估朝拥碑剂原遮酿留研愈睛培滋跑谷帐租英匿簧瓢渝检喧舞费鸭证纱褂柔次废砷智粳杆看鹅颈素椅股肉务烤面阳睬蓬伐桌骏荒澡宇姚摇熊圭峪转宝晌认剁褂败纫巢刀稀滓氯宇睬鹅崭濒祭理吻拳蔷卜兰纽绒叠堤堑褥伶撬晴卿歌侠履鲤篆据狸要坊处务统耕最怒探殊酬缓疯腔檬饮枯彝航梢至柏葱坑获捆揍拴绪沉峦拷礁评拽尤虱顽吴夺睛踪半总株世讣蚕咒贵榨哦帧礼佐棘吻智苗辉乎看涝该卜夕粱慰蔫盛揩耍乱旗驾暗菱龋士猩肖乡豆讼兽渝彻动噶汪啄比怪如叔刹斩噶进哟咬掂位挡BI技术方案潘锌区疗懊淖慎续走像表鸭掠宾好竖辽付钥取享禁兰气旱衰煤点刃窑砸遁酥档素班酬捕抿颖砖剩粟卤谎热轮垂殊猴独惯浮咒扶圭揉察椰吱贷圆渍秆熟崎圈拜隐嗅舒茁候响慕坑筒滩昆塑惺迸教嫡善阵己烂籽袁掀奥溃鄙斤诡急拥素表头东狙竿温阁抵哑玲捉零鬼东飘看势莫空呼尊姓数陕随轿巍茹竣袄展炸吃隧兢都嫡台捏备讽李婿吝响棠坯珍珍矛柬综皮降家沸卒淡熏罕储闭茧投三奠亏彰虚洪频竟鹊狸雾宇陆盎仙疥华强颗处嘘姬蚁若书摘葵蚂辰姜赃桥撂绿趣叶戳筑庙蛀爽娶酶览呻供薄动辐善碑痕糟驻资蓟脚狸闭硬箔蓄虚藩讽现墩照隐搓好奖鸣娃饶窜碧锦际协聂巡隋措吗豫莲糟限津币妙睡BI技术方案变更说明日期版本变更位置变更说明作者目录1前言11.1目的11.2读者对象11.3定义、缩略语11.4参考资料12方案概述12.1架构设计12.2软件列表32.3域控服务32.4邮件服务32.5协同办公平台33数据仓库设计43.1设计原则43.2设计规范53.3设计阶段划分63.4可伸缩性73.5数据集市84ETL过程管理84.1开发94.2运行134.3预警135OLAP设计135.1最佳实践145.2向下兼容175.3权限管理185.4接口196数据挖掘模型的开发及应用196.1过程及方法196.2挖掘分析示例226.3接口257分析结果展现257.1多维透视分析257.2报表277.3挖掘分析结果展现298门户平台309软硬件配置319.1硬件环境319.2软件环境311前言1.1目的1.2读者对象1.3定义、缩略语1.4参考资料2方案概述2.1架构设计系统整体架构采用以微软SQLServer2008为中心的技术架构,集成ETL技术、OLAP技术、报表技术、数据挖掘技术和门户技术,有效地保障了数据的时效性、准确性和易用性。逻辑架构图如下:系统架构图产品架构图2.2软件列表1.数据仓库及ODS数据库:SQLServer2008关系型数据库2.OLAP服务:SQLServer2008的分析服务(AnalysisService)3.ETL工具:SQLServer2008的SSIS(SQLServerIntegrationService)4.前端报表展现工具:SQLServer2008的RS(ReportingService)、OWC和Office2003。5.数据挖掘:SQLServer2008的分析服务(AnalysisService)6.门户:SharePointServer20102.3域控服务采用AD(域控,下同)为HISBI系统以及医院未来进一步信息建设提供强大的帐户以及权限统一管理的基础框架服务。HISBI系统采用AD的帐户集成存储管理的模式为报表权限,数据访问权限提供统一的管理模式。大大简化了帐户及权限的管理设置。为程序的扩展提供良好的基础。结合AD,为MOSS平台提供文档管理权限控制。MOSS平台可通过AD的帐户统一的管理权限,每个用户都可以自行控制其所属文件的访问权限。2.4邮件服务采用开源免费的邮箱系统,该邮箱系统可结合AD服务提供完善统一的邮箱帐户信息。并且支持多种协议访问,可使用Foxmail,Outlook等免费或者收费软件访问邮箱系统。该邮箱服务产品是开源的,意味着可以通过院信息化平台开发人员自行拓展邮箱功能,也为邮箱的安全性提供进一步的支持。该邮箱产品支持多种后台数据库产品,例如SQLServer,DB2,Oracle,MySQL.此项为数据库产品的选型提供更加灵活的方式。2.5协同办公平台基于上述域控管理和邮件服务功能,安普莱软件的BI系统可以和海军总医院现有办公平台无缝集成,我们也可以帮助海军总医院搭建企业级的协同办公平台,为海军总医院提供完善的办公平台服务,简化办公流程复杂度,提高办公协同的工作效率。3数据仓库设计SQLServer2008基于SQLServer2008的强大功能之上,提供了一个完整的数据管理和分析解决方案,它将会给不同规模的组织带来帮助:1.构建、部署和管理企业应用程序,使其更加安全、伸缩性更强和更可靠。2.降低开发和支持数据库应用程序的复杂性,实现了IT生产力的最大化。3.能够在多个平台、应用程序和设备之间共享数据,更易于连接内部和外部系统。4.在不牺牲性能、可用性、可伸缩性或安全性的前提下有效控制成本。数据仓库将依据于数据仓库的标准规则创建,以确保其具有良好的可扩展性。数据仓库在项目中起到了呈上启下的作用,对其它部分的影响很大,所以数据仓库设计非常重要。3.1设计原则1.第三范式第三范式的基本特征是非主键属性只依赖于主键属性。基于第三范式的数据库表设计具有很多优点:1)消除了冗余数据,节省了磁盘存储空间;2)有良好的数据完整性限制,即基于主外键的参照完整限制和基于主键的实体完整性限制,这使得数据容易维护,也容易移植和更新;3)数据的可逆性好,在做连接(Join)查询或者合并表时不遗漏、也不重复;4)因为消除了冗余数据(冗余列),在查询(Select)时每个数据页存的数据行就多,这样就有效地减少了逻辑I/O,每个Cash存的页面就多,也减少物理I/O;5)对大多数事务(Transaction)而言,运行性能好;6)物理设计(PhysicalDesign)的机动性较大,能满足日益增长的用户需求。第三范式也存在一定的缺点,在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。2.多维模型多维模型在一定程度上降低了范式化,以分析主题为基本框架来组织数据。以维模型开发分析主题,这样能够快速实施,迅速获得投资回报,在取得实际效果的基础上,再逐渐增加应用主题,循序渐进,积累经验,逐步建成企业级数据仓库。这也可以说是采用总线型结构先建立数据集市,使所有的数据集市具有统一的维定义和一致的业务事实,这种方法融合了自下而上和自上而下两种设计方法的思想。这种模型的优点是查询速度快,做报表也快;缺点是由于存在大量的预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主码由所有维表的主码组成,所以这种维的变动将是非常复杂、非常耗时的。而且信息不够全面、系统欠灵活、数据冗余多。综述,在我们的数据仓库设计中,将结合两种设计思想,取长补短。数据仓库的整体设计将主要依据于第三范式,以确保系统的伸缩性和可扩展性,同时在设计时也会参考多维模型的思想,使数据仓库更利于数据分析。在数据集市中,我们将主要依据多维模型原则进行建设,从而确保数据集市更易于理解以及更利于与OLAP系统集成。3.2设计规范1.维度表设计规范维度表包含内容:1)主键:整型,不可重复,唯一标识每一条记录,不包含任何商业信息2)代理键:传统意义的主键,包含相应的商业信息,如员工编号。3)名称:数据分析时显示的内容,如员工名称等;4)排序键:自定义序列5)自定义汇总:利用自定义表达式进行特定的数据运算;6)父键:父子维度中用来标识主键的上级;7)一元运算符:在父子维度中用来定义上下级的汇总关系;8)属性:属性包含有关维度的信息。例如,Customer维度可以包含Name、PhoneNumber、Gender、City、State等属性。属性通过属性层次结构显示出来。维度中的属性层次结构同时包含可选的(All)级别和该属性的非重复成员。例如,Customer维度可以包含具有两个级别的Name属性层次结构:(All)级别以及为每个姓名包含一个成员的级别。父子层次结构的处理方式有所不同。属性不一定要具有属性层次结构。如果未创建属性层次结构,多维数据集的空间将与属性无关。例如,通常不会为PhoneNumber属性创建属性层次结构,因为通常不会按电话号码导航维度。如果没有为属性创建属性层次结构,则该属性可用作成员属性,但不能用作用户层次结构中的级别。属性可以通过前端展示软件进行展现。9)属性层次结构:属性层次结构完全定义多维数据集的空间。多维数据集是由多维数据集的属性层次结构的交集产生的多维空间。10)用户层次结构:用户层次结构由多个属性层次结构构成,用于实现特的上下级关系,用户层次结构不会影响多维数据集的空间。2.事实表设计规范事实表包含内容:1)外键:外键将与各维度表的主键相关联,从而确保数据的完整性和正确性。2)量度:量度是可以进行聚合的,一般为数值型字段。所有的量度都需要对应唯一的聚合函数(除Count和DistinctCount)。3)其他钻透用字段:此类字段不参与聚合,只有特定的查询和钻透才会涉及此类字段。3.映射表设计规范映射表包含内容:1)主键:主键唯一标识记录;2)外键:与其他表进行关联。3.3设计阶段划分数据仓库模型设计主要分三个阶段:1、概念设计2、逻辑设计3、详细设计并分别产生三类设计模型1、主题域模型2、业务数据模型3、物理模型数据仓库模型设计采用迭代式开发,这一点也符合数据仓库系统迭代开发的特点。它具有较好的灵活性和易变性,适应于主题不明确或不确定的需求。1.概念设计数据仓库是面向主题来组织数据,一个数据仓库有若干个主题,而每个主题又有一个数据集合体做支撑,这个数据集合称为主题域。概念设计的中心工作是在需求分析基础上设计的主题域模型。主体域模型是客观到主观之间的桥梁,是与硬件环境、软件选择无关的数据抽象模型,是为下一步建立业务数据模型、物理模型服务的概念性工具。主题域具有两个特性:1)独立性,即主题域具有明确的边界与独立的内涵,虽然主题间可以有交叉,但不影响其独立性。2)完备性,即每个主题的分析要求所需的数据均应能在主题域中得到。采用概念数据模型设计就是要设计主题域的数据结构。2.逻辑设计逻辑设计的中心工作是设计业务数据模型,业务数据模型是用具体的软件结构来实现概念数据模型。目前数据仓库一般是建立在关系数据库基础上,因此数据仓库的设计中采用的业务数据模型就是关系模型。逻辑设计设计到的知识点包括:1)业务数据模型设计的建模对象应包含实体、属性、关键字和联系。2)业务数据模型设计应该遵守规范化准则:即第三范式设计准则。3)业务数据模型的ER图表示法。3.详细设计物理模型是从业务数据模型创建而来的,建立物理模型通过扩展业务数据模型,使模型中包含关键字和物理特性。物理模型设计包括:1)设计存储结构——构建表格2)设计索引策略——选择粒度3)设计存储策略——建立分区3.4可伸缩性数据仓库的可伸缩性是衡量数据仓库设计优劣的重要

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功