宝擎教育——极致服务成就客户宝领红蓝云济九州大数据技术与应用1Baocloud引言→NBA金州勇士异军突起2Baocloud引言→NBA金州勇士异军突起3BaocloudPIZZA的故事订午餐CRM系统家庭地址、联系方式手机、QQ、微信….健康管理系统血压、脉搏、血糖、胆固醇、既往病史图书管理系统图书借阅、归还等银行管理系统存款、取款、交易查询GPS车辆管理系统海鲜套餐?信用卡支付?半小时送到?…………你为什么这么了解我?!有高固醇体质,推荐你最近一直关注的低脂套餐信用卡欠费,建议交行支付送餐路线堵车,建议骑电瓶车取餐是大数据告诉我的^_^大数据的一角客服接待4BaocloudSocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog数据的类型结构化、非结构化数据5Baocloud大数据的解释大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。6Baocloud何为大?—数据度量1Byte=8Bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB=1,073,741,824Bytes1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes什么是大数据?7Baocloud《红楼梦》含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB约等于671部红楼梦1TB约等于631,903部1PB约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB=4000倍美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,同时,消费者在PC和笔记本等设备上存储了超过6EB新数据大数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务什么是大数据?8Baocloud大数据的4V特征Volume•非结构化数据的超大规模和增长•总数据量的80~90%•比结构化数据增长快10倍到50倍•是传统数据仓库的10倍到50倍Value•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity•实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效Variety•大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义BigData大数据9Baocloud数据本质是生产资料和资产不可再生资源VS数据10Baocloud政府对大数据的重视程度习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据11Baocloud数据爆炸式增长(每分钟……)12Baocloud每天几百GB、几TB的资料,且持续成长中储存Storing在收数据的同时做必要的前置处理(pre-processing)并区分数据处理的优先等级(prioritizing)计算Processing如何有效的避免因硬件毁坏所导致的资料损毁管理Managing如何从中挖掘出所关注事件的pattern或behavior分析Analyzing超越企业现有IT的数据解决能量13Baocloud大数据带来的思维变革(更多)14Baocloud大数据商业价值--大数据“未来新石油”142013年,世界上存储的数据预计能达到约1.2ZB(约12亿TB),如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。15Baocloud大数据商业价值---企业经营决策15某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少,那么这家店就可以考虑与包子店合作,或直接在店里出售包子。16Baocloud大数据商业价值--所有互联网公司都将是大数据公司1617Baocloud需求海量数据存储技术实时数据处理技术数据高速传输技术搜索技术描述分布式系统基础架构流计算引擎服务器/存储间高速通信文本检索、智能搜索、实时搜索技术Hadoop,HDFSMapReduceStreamingDataInfiniBandEnterpriseSearch数据分析技术大数据涉及的关键技术TextAnalyticsEngineVisualDataModeling自然语言处理、文本情感分析、机器学习、聚类关联、数据模型18Baocloud大数据面临的挑战大数据基础设施安全威胁业务部门没有清晰的大数据需求隐私泄露问题大数据人才缺乏企业内部数据孤岛大数据挑战19Baocloud发展趋势大数据发展趋势数据资源化,将成为最有价值资产大数据与更多传统行业结合数据越来越开放大数据催生一批新的工作岗位和专业大数据促进智慧城市发展20Baocloud商品零售大数据20此事经被《纽约时报》报道后,塔吉特“大数据”的巨大威力轰动全美,在美国,有一位父亲怒气冲冲地跑到塔吉特卖场,质问为何将带有婴儿用品优惠券的广告邮件,寄送给他正在念高中的女儿?然而后来证实,他的女儿果真怀孕了。这名女孩搜寻商品的关键词,以及在社交网站所显露的行为轨迹,使沃尔玛捕捉到了她的怀孕信息。模型发现,许多孕妇在第2个妊娠期的开始会买许多大包装的无香味护手霜;在怀孕的最初20周大量购买补充钙、镁、锌的善存片之类的保健品。最后塔吉特选出了25种典型商品的消费数据构建了“怀孕预测指数”,通过这个指数,Target能够在很小的误差范围内预测到顾客的怀孕情况,因此Target就能早早地把孕妇优惠广告寄发给顾客。21Baocloud消费大数据21亚马逊“预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。22Baocloud大数据+政治22在筹备过程中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。在这次的大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。“Twitter的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是59,而罗姆尼的只有5323Baocloud制造业大数据23在摩托车生产厂商哈雷·戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它就会自动调节机械。哈雷·戴维森同时还使用软件,还寻找制约公司每86秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷·戴维森提高了安装该配件的速度。美国一些纺织及化工生产商,根据从不同的百货公司POS机上收集的产品销售速度信息,将原来的18周送货速度减少到3周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。24Baocloud24谷歌基于每天来自全球的30多亿条搜索指令设立了一个系统,这个系统在2009年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达97%。这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。”医疗大数据25Baocloud能源大数据25国际大石油公司一直都非常重视数据管理。如雪佛龙公司将5万台桌面系统与1800个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省5000万美元,过去4年已获得了净现值约为2亿美元的回报。准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯(VestasWindSystems),通过在世界上最大的超级计算机上部署IBM大数据解决方案,得以通过分析包括PB量级气象报告、潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,并且提高了客户投资回报估计的准确度,同时它将业务用户请求的响应时间从几星期缩短到几小时。26Baocloud交通大数据26UPS最新的大数据来源是安装在公司4.6万多辆卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。大量的在线地图数据和优化算法,最终能帮助UPS实时地调配驾驶员的收货和配送路线。该系统为UPS减少了8500万英里的物流里程,由此节约了840万加仑的汽油。27Baocloud公安大数据27大数据挖掘技术的底层技术最早是英国军情六处研发用来追踪恐怖分子的技术。中国大数据的概念其实源于最早公安部抓法轮功分子。大数据筛选犯罪团伙,与锁定的罪犯乘坐同一班列车,住同一酒店的两个人可能是同伙,过去,刑侦人员要证明这一点,需要通过把不同线索拼凑起来排查疑犯。通过对越来越多数据的挖掘分析,某一片区域的犯罪率以及犯罪模式都将清晰可见。大数据可以帮助警方定位最易受到不法分子侵扰的区域,创建一张犯罪高发地区热点图和时间表。不但有利于警方精准分配警力,预防打击犯罪,也能帮助市民了解情况,提高警惕。28Baocloud文化传媒大数据28与传统电视剧有别,《纸牌屋》是一部根据“大数据”制作的作品。制作方Net