大数据时代: 产业前景,面临的挑战与解决之道 BruceLee,浪潮(北京)电子信息产业有限公司2目录Ø 大数据的相关概念 (定义、特征、内涵、产业链、纬度及结构类型) Ø 大数据的价值服务、市场潜力及发展前景 Ø 大数据基础设施(云计算和虚拟化) Ø 大数据的技术架构及分析架构权衡要素 Ø 大数据的生态系统,周期模型及应用 Ø 大数据时代面临的问题和挑战 Ø 浪潮大数据解决之道 Ø 浪潮金融大数据解决方案 Ø 浪潮大数据产品及成功案例 3大数据的定义§ 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 § 所谓大数据,指的是无法在可承受的时间范围内用常规软件工具进行捕捉、管理、处理的数据集合。 § 常常把这些数据与采集它们的工具、平台、分析系统一起称为大数据。 § 大数据时代的到来伴随着两大特征,一是数据量的增加,另一个更重要的是非结构化、半结构化数据爆发性增长,数据的结构日趋复杂。 13-11-44大数据的特征§ 业界将其归纳为4个“V”- Volume,Variety,Velocity, Value。 § 数据体量巨大;数据类型繁多;处理速度快;价值密度低,商业价值高。 13-11-45大数据的内涵§ 从内涵上讲,大数据不仅包含了“海量数据”,还包含复杂类型的数据。 § 大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。 13-11-46大数据的产业链§ “大数据”产业链条包含了从数据生成、数据存储、数据处理和数据展示等多个环节。§ 完整的生态系统还应当包括大数据处理结果的应用。13-11-4数据源 数据 收集 数据 存储 数据 处理 分析及可视化 应用 数据拥有者 数据处理技术提供商 数据分析技术提供商 服务技术提供商 最终用户 数据采集技术提供商 数据采集者 数据分析者 数据服务提供商 基础硬件(服务器、存储、交换)厂商 软件平台(数据库、数据仓库、分布式处理技术等)提供商 7大数据的纬度–来自Gartner的定义(3个层次和12象限)§ 质量管理—保真度(Fidelity);数据的相关性(Linking);数据的有效性(Validation);数据的有效期限(Perishability)§ 访问权限管理和控制—数据敏感性分级(Classification);共享协议(Contracts);热点数据(Pervasive);技术实现(Technology)§ 量化指标—大数据量(Volume);数据多样性(Variety);数据复杂性(Complexity);高速(Velocity)13-11-48大数据的结构类型§ 结构化—包括预定义的数据类型、格式和结构的数据(举例:事务性数据和联机分析处理)§ 半结构化—具有可识别的模式并可以解析的文本数据文件(举例:自描述和具有定义模式的XML数据文件)§ “准”结构化—具有不规则数据格式的文本数据,通过使用工具可以使之格式化(举例:包含不一致的数据值和格式的网站点击数据)§ 非结构化—没有固定结构的数据,通常保存为不同类型的文件(举例:文本文档、PDF文档、图像和视频)13-11-49目录Ø 大数据的相关概念 (定义、特征、内涵、产业链、纬度及结构类型) Ø 大数据的价值服务、市场潜力及发展前景 Ø 大数据基础设施(云计算和虚拟化) Ø 大数据的技术架构及分析架构权衡要素 Ø 大数据的生态系统,周期模型及应用 Ø 大数据时代面临的问题和挑战 Ø 浪潮大数据解决之道 Ø 浪潮金融大数据解决方案 Ø 浪潮大数据产品及成功案例 10大数据的5大高价值服务13-11-4Big Data 探究 查找、可视化、了解所有 Big Data 以提升业务知识 增强型 360o 客户视图 利用内部和外部来源实现真实统一的视图 安全性/智能扩展 实时降低风险、检测内部欺诈和监控网络安全性 运营分析 分析各种机器数据以改善业务成果 数据仓库扩充 集成 Big Data 和数据仓库功能以提高运营效率 11大数据的市场发展-提供BigDataandAnalytics服务13-11-4性能管理 内容分析 决策管理 风险分析整体集成方法 商业智能和预测性分析 信息集成和监管 BIG DATA PLATFORM 销售 | 市场营销 | 金融 | 运营 | IT | 风险 | 人力资源 分析 解决方案 行业 咨询和实施服务 内容管理 数据仓库 流计算 Hadoop 系统 可靠、可扩展、安全且灵活 基础结构 服务器系统 云计算数据中心 虚拟化产品 存储产品 (磁盘/磁带/网络) 支持组织 § 装配与组合相关混合信息 § 利用智能可视化发现和探索 § 分析、预测和自动化以寻求更准确的答案 § 执行操作和自动化流程 § 优化分析性能和 IT 成本 § 降低基础结构复杂性和成本 § 管理、监管和保护信息 12大数据分析的新体系结构13-11-4动态数据 静态数据 各种形态的 各各种形态的数据 信息摄取和 运作信息 登录区域、分析区域 和归档 § 原始数据 § 结构化数据 § 文本分析 § 数据挖掘 § 实体分析 § 机器学习 实时分析 § 视频/音频 § 网络/传感器 § 实体分析 § 预测性 探索、集成仓库 和集市区域 § 发现 § 深入反思 § 运营 § 预测性 § 流处理 § 数据集成 § 主数据 流 信息监管、安全性和业务连续性 动态数据 动动态数据 动态数据 静态数据 动态数据 智能分析 决策管理 商业智能和 预测性分析 导航和发现 流 13大数据的市场潜力§ 大数据成智慧城市推动力。从智慧城市的角度来讲,我国大数据的发展处于数据资源的加工、整合和规范阶段,国内数据还远远没有达到大数据或者智慧城市的目标。§ 数据安全是智慧城市的保障。严格的数据访问和处理机制;管理权限限制;统一整个数据中心的控制安全级别;遵守国家规定,对于那些机密级的数据,严格按照国家标准进行限定;运维的安全,提供统一的云计算平台或者云服务入口。§ 互联网产生大数据,大数据催生新业态。大数据引发的信息融合并催生新业态,云计算让城市变得更智慧,移动互联网改变着人们的生活。§ 云服务作为日趋成熟的技术,它能为广大中小企业搭建便捷高效的服务平台。§ 物联网“十二五”规划和智慧城市建设将为BI发展带来全新契机。§ 几年后,中国将进入“完全大数据时代”。 13-11-414大数据的发展前景§ 价值无限—大数据能够帮助企业发现新的收入增⻓长点;优化和完善现有的收入和利润空间;获得超过其竞争对手的竞争优势。§ 产业链⻓长—未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用可将大数据变成一大产业。§ 模式多样—基于大数据,会有很多商业模式诞生。大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。§ 潜力巨大—未来中国大数据产品的潜在市场规模有望接近2万亿元。 13-11-415⼤大数据相关技术§ 分析技术—数据处理:自然语言处理技术。—统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析。 —数据挖掘:关联规则分析;分类;聚类。 —模型预测:预测模型;机器学习;建模仿真。 § 大数据技术—数据采集:ETL工具。 —数据存取:关系数据库;NoSQL;SQL等。 —基础架构支持:云存储;分布式文件系统等。 —计算结果展现:云计算;标签云;关系图等。 § 存储—结构化数据:海量数据的查询、统计、更新等操作效率低。—非结构化数据:图片、视频、word、pdf、ppt等文件存储,不利于检索、查询和存储。—半结构化数据:转换为结构化存储,按照非结构化存储。§ 解决方案—Hadoop(MapReduce技术) —流计算(Twitter的storm和yahoo!的S4) 16目录Ø 大数据的相关概念 (定义、特征、内涵、产业链、纬度及结构类型) Ø 大数据的价值服务、市场潜力及发展前景 Ø 大数据基础设施(云计算和虚拟化) Ø 大数据的技术架构及分析架构权衡要素 Ø 大数据的生态系统,周期模型及应用 Ø 大数据时代面临的问题和挑战 Ø 浪潮大数据解决之道 Ø 浪潮金融大数据解决方案 Ø 浪潮大数据产品及成功案例 17云计算,虚拟化和大数据三者的关系§ 云端大数据—云计算是一种基于互联网的计算模式,是为了建立能够通过网络普遍的、便利的、按需付费的方式获取计算资源(如网络、服务器、存储、应用和服务等)。§ 云基础设施—大数据解决方案的构架离不开云计算的支撑,大数据是构建在云计算基础架构之上的应用形式。§ 虚拟化—计算虚拟化,存储虚拟化,网络虚拟化§ 数据中心—海量的数据需要足够存储来容纳它,快速、低廉价格、绿色的数据中心部署成为关键。§ 云安全和云平台13-11-418云计算发展成熟模型§ 云计算发展需要一个过程,从基础设施集中、数据集中、到业务集中需要⻓长达数年的周期;数据中心建设是不可回避的过程。 13-11-4能对数据进行深度的加工利用,实现行业应用的智能化 4应用云计算平台,强关联部门共建分类的基础数据, 实现信息资源的高度共享 321搭建云计算平台,强关联部门的数据能够进行集中和整合,初步实现数据共享和业务协同 基本覆盖内部各项业务,且各业务之间连成一个整体 信息系统基本覆盖内部各项业务,但各业务之间应连未连 519云计算应用进入大数据时代§ 如何让行业信息化数据,变成知识,最终实现服务是关键§ 性能与扩展性矛盾 § 多种数据类型的融合 § 如何控制数据存储与数据处理的性价比 § 如何满足大并发、快速响应§ 大数据处理的需求给行业云提出了更高的要求 13-11-420目录Ø 大数据的相关概念(定义、特征、内涵、产业链、纬度及结构类型)Ø 大数据的价值服务、市场潜力及发展前景Ø 大数据基础设施(云计算和虚拟化)Ø 大数据的技术架构及分析架构权衡要素Ø 大数据的生态系统,周期模型及应用Ø 大数据时代面临的问题和挑战Ø 浪潮大数据解决之道Ø 浪潮金融大数据解决方案Ø 浪潮大数据产品及成功案例21大数据的技术架构§ 基础层—虚拟化、网络化、分布式;横向可扩展体系结构§ 管理层—结构化数据和非结构化数据;并行处理;线性可扩展性§ 分析层—自助服务;迭代、灵活;实时协作§ 应用层—实时决策;内置预测能力;数据驱动;数据货币化 13-11-422大数据的分析架构需要权衡的四大要素§ 数据准确性_____不断增加的数据容量和更广泛多样的数据类型,特别是当涉及结构化和非结构化数据混合时,就会对一个大数据的实施增加难度系数。§ 存储适用___在许多大数据应用程序中,相较于事务系统,由于添加了非结构化数据还有数据的创建和收集增速迅猛,用Hadoop和NoSQL技术增强数据仓库就成为必要。§ 查询性能_____能否识别正确的基础设施来支持快速的数据可用性和高性能查询就意味着成功还是失败。§ 稳定性_____必须提前考虑和求证正在进行评估的大数据技术是否能够进行扩展,以达到不断向前发展的需求所要求的级别。 13-1