BIGDATAContents13我们可以做些什么2实操分享4大数据,你从哪来你是谁中国网民数量:7.51亿半年增长率:2.7%中国注册网站数量:344.3万个手机网民:7.236亿占网民总数:96.3%月均网络交易:16亿笔每日新发微博数量:1亿+条注册微博用户数:2.9071亿发布的网页数量:866亿页年增速:~40%网络直播用户:3.43亿占网民总数:47.1%很多人还没搞清楚什么是PC互联网,移动互联来了;我们还没搞清楚移动互联的时候,大数据时代又来了!——马云数据爆炸式的增长数据资产管理的挑战需要更高性价比的数据计算与储存方式需要不同的数据管理策略01你从哪里来?数据爆炸式的增长数据资产管理的挑战数据资产B数据资产管理传统数据管理方式面临挑战AC需要更高性价比的数据计算与储存方式计算更快存储更省10万GB10万TB1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes1Bity1KB1MB1GB1TB1PB1EB1ZB1YB85%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile需要不同的数据管理策略15%结构化的DB/DW残缺当我们想要扩充时,才发觉:•架构只能scale-up,scale-out不易•处理时间过长,time-to-value受限•成本过高,cost-efficiency受限概念(Concept)特征(Features)变革(Change)技术(Technology)数据库(database)大数据(bigdata)你是什么?02大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。全球信息咨询机构国际数据公司(IDC)对大数据的技术定义是:通过高速捕捉、发现或分析,从大容量数据中获取价值的一种新的技术架构。所谓“大数据”(bigdata)指的是这样一种现象:一个公司日常运营所生成和积累用户行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P(1000个T),E(一百万个T)或Z(10亿个T)为计量单位,所以称之为大数据。概念数据类型多越来越多非结构化数据;音频、食品,地理位置信息等多类型数据对数据处理能力提出更高要求。数据价值高海量数据带来了巨大的商业价值。数据之间关联性支持深层的数据挖掘。大数据的特点-4V理论数据处理速度快对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。数据规模大从TB跃升到PB甚至EB。一组公式:1024GB=1TB;1024TB=1PB;1024PB=1EB。。•各级政府、主管部门、上市公司、企业集团、外资公司都将基于大数据分析平台优化其决策。优化•大数据分析能力逐渐加强,传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失。革命•银行都将基于企业大数据平台开展银行直销业务,同时按照产业链金融服务事业部模式开展业务颠覆•因大数据系统的出现,所有依赖信息不对称盈利的业务都将消失。改变大数据改变生活IBMC&PIndustry需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式文件系统流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,x86/MPPMapReduceStreamingDataInfiniBandEnterpriseSearch数据分析技术大数据涉及的关键技术TextAnalyticsEngine自然语言处理、文本情感分析、VisualDataModeling机器学习、聚类关联、数据模型顾客一次购买商品1面包、黄油、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布、牛奶、鸡蛋4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6鲑鱼、尿布、牛奶7面包、茶叶、糖、鸡蛋8咖啡、糖、鸡、鸡蛋9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶顾客一次购买商品1面包、黄油、尿布、牛奶2咖啡、糖、小甜饼、鲑鱼3面包、黄油、咖啡、尿布、牛奶、鸡蛋4面包、黄油、鲑鱼、鸡5鸡蛋、面包、黄油6鲑鱼、尿布、牛奶7面包、茶叶、糖、鸡蛋8咖啡、糖、鸡、鸡蛋9面包、尿布、牛奶、盐10茶叶、鸡蛋、小甜饼、尿布、牛奶品种计数项:品种面包6牛奶5尿布5鸡蛋5黄油4糖3咖啡3鲑鱼3小甜饼2鸡2茶叶2盐1总计41概念(Concept)分类(Features)流程(Technologicalprocess)03我们可以做些什么?什么是数据分析数据分析有哪些类型描述性数据分析探索性验证性对比分析法平均分析法交叉分析法初级数据分析高级数据分析相关分析因子分析回归分析•先决条件•提供方向明确目的•数据库•其他媒介数据收集•清洗、转化、提取、计算数据处理•统计分析•数据挖掘数据分析•图表→表格→文字数据展现•框架清晰•明确结论•提出建议报告撰写数据分析的一般环节04关于数据分析的分享与交流理论模型统计方法可视化数据分析方法论常用的数据分析理论模型营销方面管理方面4PPEST用户使用行为5W2HSWOT生命周期……逻辑树金字塔SMART原则……4P(productpriceplacepromotion)•公司提供什么产品或服务?哪个产品的销量最好?•与用户需求是否一致?•购买产品的都是什么人产品•公司销售收入怎么样?•用户接受的合理价格是多少?•用户购买支付方式是怎么样的?价格•公司在各地区有多少销售渠道?•公司的渠道政策是否有吸引力?渠道•投入多少促销资源?•投放多少宣传广告?效果如何?促销5W2HWHY用户买的目的是什么?产品在哪些方面吸引用户?WHAT公司提供什么产品或服务吗?用用户需求是否一致?WHO谁是我们的用户?用户有何特点?WHEN何时购买?何时再次购买?WHERE用户在哪里购买用户在各个地区的构成怎样?HOW用户支付方式是怎样?HOWMUCH用户购买花费的成本?KANO模型对顾客的不同需求进行分区处理,帮助团队识别对产品来说较为关键的客户需求层次,尽快完成规划。兴奋型需求期望型需求基本型需求数据分析统计方法统计方法聚类分析01回归分析02时间序列分析03因子分析和主成分分析04数据分析软件MATLABSASSpssStataEviewsExcel可视化方法ECHARTSEASELYPPT附:1、ECHARTS、EASELY,就是用于用户行为研究分析用户使用行为:认知--熟悉--试用--使用--忠诚利用用户行为理论,梳理网站分析的各关键指标之间的逻辑关系,构建符合公司实际业务的网站分析指标体系:ADDYOURTITLEHERETEXTHERETEXTHERETEXTHERETEXTHERETEXTHEREADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.数据分析统计方法01020403聚类分析ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.数据分析统计方法聚类分析回归分析因子分析和主成分分析时间序列分析数据分析软件MATLABSASSpssStataEviewsExcel1.绩效指标必须是具体的(Specific)2.绩效指标必须是可以衡量的(Measurable)3.绩效指标必须是可以达到的(Attainable)4.绩效指标是要与其他目标具有一定的相关性(Relevant)5.绩效指标必须具有明确的截止期限(Time-bound)无论是制定团队的工作目标还是员工的绩效目标都必须符合上述原则,五个原则缺一不可ADDYOURTITLEHEREMAINIDEAThisisanexampletext.Goaheadandreplaceit.ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.03ADDYOURTITLEHEREThisisanexampletext.Goaheadandreplaceit.分配丌透明,数据资产错配人力物力浪费数据丌开放,企业数据合作受限分布杂乱,处理缓慢,评估手段缺失,尽管“数据是资产”概念已经广为人知,但“如何管理数据资产”仍然缺少成熟理论以及工具手段需求发现数据资产管理是企业或组织采取的各种管理活劢,用以保证数据资产的安全完整,合理配置和有效利用,从而提高带来的经济效益,保障和促进各项事业发展。该领域是大数据时代企业布局竞争的核心,也是目前市场空白。什么是数据资产?存在什么问题?导致低效决策数据资产价值大定义丌统一错误判断加工流程混乱,数据源丌规范,导致无效数据加工数据资产闲置……打折扣治理无力应用低效运营缺失……数据资产是企业及组织拥有或控制,能带来未来经济利益的数据资源。数据资产管理的挑战元数据数据稽核管理制度为什么传统数据管理方式并不适合数据资产管理要求?传统数据管理方式外部性管理,依赖管理力度和执行自律,成难毁易。从范围来看,从形式来看,从内涵来看,非结构化数据、内外部数据混搭、云化处理等都会冲击传统管理模式挑战1数据加工的复杂度和速度要求越来越高,也对传统管理效率提出挑战挑战2数据的交换、转让、租赁、交易等各种创新模式,也要求新的管理手段挑战3资产验证数据整合交易保障数据资产管理的挑战1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和软件是大数据的引擎•和数据中心(DataCenter)一样,软件是大数据的驱动力.•软件改变世界!中央政府对大数据的重视程度习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的