大数据蕴含大价值河北移动业务支撑中心目录河北移动的机会应对大数据的技术2什么是大数据?13“大数据”和“小数据”的不同思考?为什么现在会有“大数据”,以前难道没有?为什么现在大数据倾向用专门的解决方案,为什么以前不?为什么大数据发源于互联网,而不是传统数据密集型企业?大数据解决方案要深度定制,但是…人:硬件人员、Hadoop平台人员、工具人员、运维人员×31物:何种节点的规模才能达到规模效应?几个节点的Hadoop算不算大数据?云计算的资源动态调配如何实现?基于性价比的选择买产品:如果定制的效益不如付出的成本,那么采购标准的第三方产品是更好的选择。“小数据”大多是这类情况定制:如果定制的效益超过付出的成本,那么倾向自己进行定制。比如Google、Facebook等我们的选择?“大数据BigData”很热门“大数据BigData”,大概是爆红速度仅次于云计算的科技新名词,过去一年来,云计算虽然还是很热门的话题,但更热门的是大数据,情况就像几年前厂商不约而同在谈云计算一样。业界逐步开始区分大数据和云计算两个概念。前者主要指业务问题、创新机会和技术平台,后者主要指按需付费、资源动态调配、自服务的商业模式。从大数据BigData和云计算CloudComputing在Google上的搜索趋势(100代表最大搜索量)上看,对大数据的关注已经逐步超过了云计算。对大数据的需求主要集中在分析Analytics和使用方面。Gartner:HypeCycleforEmergingTechnologies,2012典型的大数据传感器RFID从2005年的1.3亿增加到2010年的30亿互联网Google每天处理大约24PB的数据社交网络Facebook每天处理25TB的数据Twitter每天处理7TB的数据电信中国移动每天产生10TB+话单、30TB+上网日志和100TB+信令数据金融每交易周期,纽约证券交易所捕获1TB的交易信息零售沃尔玛每小时要处理100万笔电子交易记录科研欧洲核子研究中心的强子对撞机每秒产生40TB数据政府美国政府拥有848PB数据,居于美国第二位数据量井喷,据统计,全球90%的数据都是在过去两年中生成的。互联网、社交网络、传感器、科研、金融正在产生越来越多的数据。互联网上的一分钟大数据的特征——3V有人说大数据的特征是3V,有的说是3V+1V(价值),有的说是3V+1C(处理复杂性),但是3V是跑不了的,这些体现了大数据不同于传统数据的特点。数据大(Volume),例如Facebook每天在30万台服务器上处理25Tb数据时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻种类和来源多样化(Variety),除了结构化的数据、半结构化、非结构化的数据大量产生大数据众生态在全球经济的很多领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。——《大数据:下一个创新、竞争和生产率的前沿》麦肯锡全球研究所2011年5月在对全球100个国家及地区从事30个行业的3000名高管进行的调查中,有60%的受访者表示无法有效利用所有数据。而近期IBM对64个国家及地区从事19个行业的1700名首席营销官开展的最新调查更是进一步体现了出这个问题的严峻性:调查结果显示,71%的首席营销官表示他们的企业没有做好充分准备来应对大数据的挑战。——《IBM-麻省理工斯隆管理学院评论》2011年大数据不是一个单独的市场,它无处不在,以一切可以想象出的方式影响着商业。大数据的涌入将迫使产品、业务和解决方案发生变化。这种变化非常快,企业可能不得不淘汰要求的现有解决方案。2012年大数据将直接或间接拉动全球960亿美元IT支出,预计这一数据2013年将达到1200亿美元,2016年达到2320亿美元。新支出将流向社交媒体、社交网络分析和内容分析。支持大数据需要使用大量服务,高达软件采购支出的20倍。拥有相应技能的人才非常稀缺,但需求旺盛。——Gartner2012年10月大数据各家看点有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展…麻烦各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据已经上升到美国政府国家战略2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了《规划数据未来》的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。。。。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”2012年3月29日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”BigDataResearchandDevelopmentInitiative,以推动大数据的提取、存储、分析、共享和可视化。美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据。“与数俱进”:联合国发布大数据政务白皮书联合国于2012年7月10日在纽约总部发布了一份大数据政务白皮书《大数据促发展:挑战与机遇》,总结了各国政府如何利用大数据更好地服务和保护人民。大数据时代已经到来大数据对于联合国和各国政府来说是一个历史性的机遇,报告解释了大数据如何帮助政府更好地响应社会和经济指标变化,例如收入、失业、食品价格等。以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例,表明政府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。该报告是联合国“全球脉搏”项目的产物。“全球脉搏”是联合国发起的一个全新项目,旨在利用消费互联网的数据推动全球发展。利用自然语言解码软件,可以对社交网络和手机短信中的信息进行情绪分析,从而对失业率增加、区域性开支降低或疾病暴发等进行预测。建议联合国成员国建设“脉搏实验室”“PulseLabs”网络开发大数据的潜在价值。驾驭大数据能够改变什么?——传感器、智慧地球2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。1962年,经过“圣灰星期三”风暴后,美国陆军工程部和美国国家海洋与大气管理局共同建设了一个传感器监测系统,对兴风作浪的海洋进行监测。2005年,浮标上安装了更高端的传感器,用来监测海浪方向。2009年,系统再次升级,开始着手建立一个覆盖全美海岸线的精确海浪监测网络。这些传感器以分秒为单位,将数据源源不断实时传回。还记得《后天》里面那个场景?驾驭大数据能够改变什么?——情感分析、舆情分析通过对BBS、博客、微博中内容的分析,政府、企业和个人可以了解当前舆论情况,公众对待某一事物的看法。目前围绕这个产业,催生了一大拨的创新公司。通过分析15万条关于刘翔的微博,分词并析取出其中使用的字词。在分析中,我们发现,为刘翔呐喊助威的声音占了统治地位,然而也有微博用户激烈地批评刘翔。这是我们第一次能对如此数量的中国用户进行数据可视化和情感分析在所有关于刘翔的微博中出现的最显著的名词和形容词。结点越大表明越多人使用过这个词。两个结点离得越近表明它们一起出现在同一用户微博中的频率越高。我们在构造出的这个图中,可以非常明显地发现刘翔支持者所用的词语(右下)以及批评者所有的词语(左上)的巨大区别。驾驭大数据能够改变什么?——语言、文字分析奥巴马和罗姆尼辩论情况分析。驾驭大数据能够改变什么?——社会化网络分析分析在社交网络上谈论的情况以及分享的购物情况,来发现失业率变化情况和经济发展状况。驾驭大数据能够改变什么?——社交网络分析、微博营销电信行业、传媒业借助社交网络分析,对客户的通话数据、微博连接进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录和微博信息,而是分析各用户所处的社交网络。圈子识别关键成员识别传播影响分析重入网用户识别双机双卡用户识别六度空间理论关系强度分析驾驭大数据能够改变什么?——客户特征与交叉销售以及更多今年年初,美国一名男子闯入了他家附近的Target店铺(Target是一家美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼到,“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为Target发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。——《纽约时报》报道更多:反恐(万维信息触角计划与建言计划),库存管理(沃尔玛的RetailLink)、卖数据!大数据驱动市场营销、驱动成本控制、驱动产品和服务创新、驱动管理和决策的创新、驱动商业模式的创新。驾驭大数据能够改变什么?——算法交易、欺诈检测欺诈检测:监控信用卡使用,当检测的信用卡在很短的时间内并且相距甚远的位置已连续被使用,检测到欺诈行为,拒绝卡的使用算法交易:及时发现存在的交易机会,每次一小笔,毫秒级交易,每天进行数量众多的交易。已经成为趋势金融交易是最能体现大数据的Velocity特性的,机会稍纵即逝,甚至券商对连接到交易主机的网线长度都有至关重要的诉求。算法交易成为趋势,但也导致了一次小型的股灾。数字竞选团队我们会在此次竞选活动中对每个事件进行数据分析。”团队聘请了一大批分析员,人数规模甚至达到了2008年竞选时数据分析部门的五倍(据了解大概100多人)整合信息资源奥巴马竞选团队的一位官员表示:“我们知道,民主党的问题就在于拥有了大多的数据库,且没有哪两个数据库是相同的”。因此,在总统竞选前的18个月,竞选团队就创建了一个庞大系统,这一系统可以将民调者、注资者、工作人员、消费者、社交媒体以及“摇摆州”主要的民主党投票人的信息进行整合。竞选结果预测奥巴马的数据分析团队此前曾在关键州收集数据,并建立了4条投票数据流,用于拼凑出当地选民的详细数据模型。奥巴马的数据分析团队可以更清楚的了解每类人群和地区选民在任何时刻的投票倾向。开辟第二战场奥巴马竞选团队首次利用Facebook这些社交网络进行大规模的游说,就像此前挨家挨户敲门拉票的方式一样。数据还帮助奥巴马竞选团队更好的作出了广告购买的决策。在选择广告投放渠道时,他们没有依靠外部顾问,而是基于内部数据得出结论。奥巴马连任的机密:“大数据”制胜的四大法宝目录河北移动的机会应对大数据的技术2什么是大数据?13应对“大数据”的技术世界正在从“大量”的“小数据”,向“少量”的“大数据”演进。原来按通用需求所设计的产品越来越不实用,专用化和深度定制成为应对大数据挑战的技术趋势。代码和数据不分类代码+文件通用关系数据库+应用代码层次型数据库网状型数据库数据库技术数据处理技术OLTP数据库内存数据库OLAP数据库MPP数据库科学计算数据库NOSQLHadoop/MR流处理初始期IT系统较少,较为专业,采取深度定制、耦合的方式,软硬件由同一