数据架构设计指导书(版本号V1.0)朗新科技(中国)有限公司2013年06月更改履历版本号修改编号更改时间更改的图表和章节号更改简要描述更改人批准人V1.02013-6-15王全义郑德炳注:更改人除形成初稿,以后每次修改在未批准确认前均需采用修订的方式进行修改。目录1编写目的3332适用范围3333数据架构设计原则3334数据架构设计4444.1企业业务数据分类4444.1.1按数据格式划分...........................4444.1.2按数据参照程度划分.......................4444.1.3按数据采集频道划分.......................5554.1.4按使用性质划分...........................5554.2数据主题域5554.2.1数据主题域视图...........................5554.2.2数据主题域关系视图.......................6664.3概念数据模型概念数据模型主要由最佳实践和业务需求作为驱动因素高阶的数据模型,定义了重要的业务领域概念(即数据主题域)和彼此的关系,由核心的数据实体或其集合,以及实体间的关联关系组成。概念数据模型独立于信息系统存在,不涉及信息在系统中的表示。7774.3.1概念模型视图.............................8884.3.2数据流转视图.............................9994.4逻辑数据模型1010104.4.1逻辑数据模型视图......................1010104.4.2数据分布视图..........................1111114.5物理数据模型1212124.5.1物理模型视图..........................1313134.6数据库详细设计1313134.6.1数据基础设计..........................1313134.6.2常用参数..............................1414144.6.3主要模式..............................1414144.6.4表空间规划及存储容量估算..............1414144.6.5历史表................................1515154.6.6表分区................................1616164.6.7DBLINK................................1818184.6.8同义词................................1919194.6.9主键..................................1919194.6.10索引..................................2020204.6.11约束..................................2020204.6.12修改标志时间戳........................2020204.6.13LOB字段...............................2020204.6.14冗余字段设计..........................212121编写目的为了提高数据架构设计能力、规范软件设计流程、加强架构管控力度,提高软件安全特制定本规范。此文档描述了数据架构设计等。适用范围适用于数据架构设计人员。数据架构设计原则数据资产化原则:将数据作为公司具有价值的无形资产来管理,统一认识,加强数据资产认责管理,保障数据资产的价值发挥。数据共享性原则:避免数据孤岛的建设和数据私有化,加强数据在公司各级单位、各个业务领域间的共享。营造及时、准确的共享数据环境,完善数据管控机制,确保数据共享符合信息安全要求。数据可用性原则:建立标准化、多样化的数据资产获取渠道和访问方式。加强数据质量管理,增强用户使用数据的信心,有效支撑各类分析应用建设。数据认责原则:针对不同的数据资产指定权威的数据拥有者、质量责任者、日常管理维护者等角色,建立配套的数据管控机制和评价考核体系,确保数据认责工作的有效开展。数据标准化原则:在公司全局范围内建立通用的数据标准,包括业务数据标准,主数据标准,元数据标准等,避免数据的二义性,促进数据共享和利用。数据安全性原则:定义数据安全级别,建立数据安全控制过程,保证数据被合理的访问、共享和发布,避免未经授权的数据操作,满足监管单位和公司业务经营对数据安全的要求。数据架构设计数据架构设计主要解决:存在哪些数据资源、如何管理数据资源、解析业务信息的数据模型是什么、面向交易、交换和分析的数据模型是什么、信息在流程间、数据在功能间如何流转等问题。数据架构设计主要内容:数据主题域设计、概念数据模型设计、逻辑数据模型设计、物理数据模型设计等。企业业务数据分类按数据格式划分结构化数据:方便用数据库的二维表结构来逻辑表达实现的数据,数据结构字段含义确定,清晰。例如:客户信息、用电记录等。是挖掘数据价值的主要对象。非结构化数据:很难按照一个概念去处理的无结构性的数据。例如文本、多媒体数据等。其数据利用技术相对于结构化数据起步晚,是未来数据应用的一个发展方向。按数据参照程度划分主数据:用于描述企业核心业务实体/对象的基本业务数据,它在企业内长期存在并且被重复应用于多个业务部门和信息系统,是最容易产生数据一致性问题的一类数据,需要单独的管控机制对其进行管理。非主数据:相对于主数据,其它的参照度低的、存在周期短的非核心实体/对象数据可认为是非主数据。按数据采集频道划分非实时数据:相对于实时数据,其它的企业经营过程中产生的,由业务人员通过应用系统输入的数据都可认为是非实时数据实时数据:主要是由一些传感器设备以自动化的方式采集的秒级、毫秒级的数据,例如电网运行数据、设备状态数据等。这些数据的特点是数据内容简单,但数据量很大。按使用性质划分分析性数据:用于支持日常报表、查询、分析等决策需求的数据。共享数据:来自某个业务系统,在业务部门之间、业务系统之间重复使用的数据数据主题域数据主题域由业务信息按照其业务耦合程度聚合而成的高阶数据主题群,一般与业务域有着紧密的对应关系。例如:财务、物资、生产等。数据主题域通过数据主题域视图和数据主题域关系视图来体现。数据主题域视图展现数据域和数据主题,并定义数据主题对业务域的支撑关系。例图如下:数据主题域关系视图展现数据主题域之间的逻辑关系。一般分为一级数据主题域关系视图和二级数据主题域关系视图,二级是一级的细化。一级数据主题域关系视图如下:二级数据主题域关系视图如下:客户档案电动汽车运营客户服务营销账务费用查询重要客户服务能效管理服务跟踪重要客户服务互动服务电能产品资产台账电池管理电动汽车服务物资配送充值卡充值卡配送能效服务网站服务客户物资资产产品概念数据模型概念数据模型主要由最佳实践和业务需求作为驱动因素高阶的数据模型,定义了重要的业务领域概念(即数据主题域)和彼此的关系,由核心的数据实体或其集合,以及实体间的关联关系组成。概念数据模型独立于信息系统存在,不涉及信息在系统中的表示。概念模型应该抓住一个重点,即表达重要业务概念及业务概念之间的关系;解决并只解决需要在全国范围内统一规范的核心的业务问题;只是反映了业务对数据的需求,包容多种物理实现方式,除非该种物理实现方式不满足业务的需求。概念数据模型一般由概念数据模型视图和数据流转视图组成。概念模型视图展现数据主题域之下的数据实体,并展现数据实体之间的关联关系。数据流转视图展现数据实体所分布到的应用,并展示数据在应用间的流转。例图如下:业务应用服务应用服务层数据存储存-生产数据库应用接口省(市)公司业务应用服务应用服务层应用接口公司总部ETL公司总部供电服务品质评价应用省(市)公司供电服务品质评价应用ETLETL第三方系统第三方系统公司总部客服系统95598智能互动网站短信平台95598系统营销系统用电信息采集系统生产管理系统中间数据区业务数据区中间数据区业务数据区总部客服查询库总部客服报表库GroupbyGroupby数据存储存-生产数据库逻辑数据模型逻辑数据模型对概念数据模型的进一步分解和细化,描述实体、属性以及实体关系,通用的字段类型、长度和主外键关系等做了定义,设计时一般遵从“第三范式”以达到最小的数据冗余。逻辑模型的设计由最佳实践和业务需求、数据资源规划、现有业务应用数据模型等作为驱动因素逻辑数据模型由逻辑数据模型视图和数据分布视图组成逻辑数据模型视图对数据实体的分解细化,对数据实体的属性、属性类型、长度和主外键关系等做了定义,遵从“第三范式”以达到最小的数据冗余。数据分布视图展现数据实体所分布到的功能,并定义在功能中的操作(CRUD)数据分布视图如下:省(市)公司结构化数据存储中间数据存储区业务数据存储区非结构化数据存储轻度汇总数据流程数据(95598、业扩)分析指标数据公司总部分析指标数据轻度汇总数据95598流程数据各类文本式报告/报表各类知识类文档指标数据分析数据因子数据第三方调查数据评价数据各类文本式报告/报表各类知识类文档指标数据分析数据因子数据第三方调查数据评价数据CRUD如下:物理数据模型物理数据模型描述数据模型的细节,需要考虑所使用的数据库产品、对应的字段类型、长度、索引等因素,并对数据冗余与性能进行平衡,必须确定数据库平台和应用程序的架构。物理数据模型的设计由数据库/数据仓库系统平台和性能调整优化要求作为驱动因素。物理模型视图描述数据模型的细节,需要考虑所使用的数据库产品、对应的字段类型、长度、索引等因素,并对数据冗余与性能进行平衡。物理模型视图例图如下:数据库详细设计数据基础设计数据库类型:Oracle数据库版本:11.2.0.3或11.2.0.4数据库SID:sqadb1、sqadb2数据库名:sqldb语言:AMERICAN_AMERICA数据库字符集(NLS_CHARACTERSET):UTF8国家区域字符集(NLS_NCHAR_CHARACTERSET):UTF8常用参数NLS_LENGTH_SEMANTICS=CHAR说明:此参数需要设置后重启方可生效。主要模式设计规划数据库schemas,主要用于客户端或外部系统访问数据库。具体设计例子如下:模式名英文内容描述权限需求对象类型默认空间默认索引表空间工作流用户sotower用于保存工作流数据由普华提供由普华提供DATA_SOTOWERIDX_SOTOWER权限、组织bpm用于保存权限组织由普华提供由普华提供DATA_BMPIDX_BPM表空间规划及存储容量估算根据业务情况与各物理表设计字段长度,评估运行周期1年内产生的数据量。数据域数据表空容量估算索引表空间容量估算间(GB)(GB)客户档案DATA_CUS70~280IDX_CUS105-420服务体系/用能分析/营销市场/系统支持DATA_EESMP40IDX_EESMP60用能采集DATA_EIC7300IDX_EIC14600工作流DATA_SOTOWER0.5IDX_SOTOWER0.5组织、权限DATA_BPM0.5IDX_BPM0.5接口用户DATA_API0.5IDX_API0.5历史表所有非档案数据表在系统设计之初就需要考滤历史数据的使用。历史表设计必须在需求分析阶段确定下来,并在数据模型设计得以体现。在线数据保留在在线系统中的当前表中,保留业务经常使用的数据。历史数据保留在历史系统中的历史表中,保留当前业务不被使用的数据,将这部数据从在线系统中迁出可以在线系统库维持在稳定的大小,提高在线库的性能和可靠性,提高当前表中的查询速度。对于有时间特征的流水业务数据必须进行归档,归档周期由具体业务需求决定。如果数据量巨大,可根据业务需求缩短归档时间周期。对于没有明显时间特征的旧数据