大数据与管理报告人:和力数据:数据是记录下来可以被鉴别的符号,包括文字、图片、视频和声音等。太字节,记作TB,1TB=1024GB;拍字节,记作PB,1PB=1024TB;艾字节,记作EB,1EB=1024PB;泽字节,记作ZB,1ZB=1024EB。目录大数据的发展1大数据的定义和特征2案例分享3大数据时代的机遇和挑战4大航海时代,早期由于对潮汐、风和洋流等知识的缺乏,远洋航海不仅效率低下,而且充满危险。大数据的前世今生马修·方丹·莫里曾是一名优秀的美国海军军官,在一次偶然的事故后被迫退役。随后,他与20个志同道合的数据处理者一起,整理了所有旧航海图上的信息,并绘制了一张拥有120万数据点的航海图。通过分析这些数据,莫里知道了一些良好的天然航线,这些航线上的风向和洋流都非常利于航行。他所绘制的图表使航海路程减少,也变得更安全。莫里航海图,最早的大数据实践UPS的司机一般每天要送120至175次货。在任何两个目的地之间,都可以选择多条路线。显然,司机和UPS想要找到其中最有效率的那条。大数据的前世今生UPS行车路线选择因此UPS利用大数据分析打造了一个名为Orion的道路优化与导航集成系统,可以在约3秒内找出最佳路线。2011年,UPS的驾驶员少跑了5000万公里的路,节省了300万加仑燃料,少排放了3万立方公吨的二氧化碳。大数据的发展背景2001年Gartner研究指出,现代信息社会的信息爆炸已经演变成了数据爆炸。2008年2011年《Nature》杂志出版专刊“BigData”,分析了大量快速涌现数据给数据分析处理带来的巨大挑战。《Science》推出关于数据处理的专刊“Dealingwithdata”,讨论了数据洪流(DataDeluge)所带来的挑战。5月麦肯锡全球研究院发布了《大数据:创新、竞争和生产力的下一个领域》研究报告。2012年3月奥巴马总统宣布美国政府投资逾2亿美元启动“大数据研究和发展计划(BDRDI)”。5月,联合国发表名为《大数据促发展:挑战与机遇》的政务白皮书。大数据的发展背景随着一系列标志性事件的发生和建立,人们越发感觉到大数据时代的力量。因此2013年被许多国外媒体和专家称为“大数据元年”。Information二十世纪中后期Industry十八世纪中叶Data2013年Agricultural一万年前大数据的发展背景1、智能终端的普及2、网络带宽的提升3、电子商务的狂热4、社交网络流行5、位置信息6、云计算的兴起7、物联网时代的到来大数据的发展背景大数据的发展背景大数据的定义麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体量入手的:大数据是指那些规模大到传统的数据库软件工具已经无法采集、存储、管理和分析的数据集。百度百科对大数据的定义是:大数据(BigData),或称巨量资料,指由于容量太大和过于复杂,无法在一定时间内用常规软件对其内容进行抓取、管理、存储、检索、共享、传输和分析的数据集。维克托∙迈尔-舍恩伯格(2012)在《大数据时代》一书中主要从价值大的角度来定义大数据,他认为大数据是当今社会所独有的一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据的特征大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量据估计,2007年全球存储了大约300EB的数据,而到2013年,已达1.8ZB,据估计到2020年,世界上存储的数据预计能达到35ZB之多,相当于数千亿个大型图书馆存储的数据。太字节,记作TB,1TB=1024GB;拍字节,记作PB,1PB=1024TB;艾字节,记作EB,1EB=1024PB;泽字节,记作ZB,1ZB=1024EB。。。。大数据的特征大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量存储量+计算量广州超算中心16000个运算节点312万个计算核心整体总计内存1.408PB12.4PB的硬盘阵列大数据的特征大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速•处理速度快。1秒定律。•这一点也是和传统的数据挖掘技术有着本质的不同。数据更新、增长速度快Facebook上每秒有4.1万张照片上传,淘宝每秒有数万笔交易。+数据存储、传输等处理速度快大数据的特征大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速•处理速度快。1秒定律。•这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样•数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。大数据的特征大数据的4V特点:Volume、Velocity、Variety、Value•数据体量巨大。从TB级别跃升到PB级别。Volume大量Velocity高速•处理速度快。1秒定律。•这一点也是和传统的数据挖掘技术有着本质的不同。Variety多样•数据类型繁多。不仅包括传统的关系数据类型,也包括以网页、音视频、文档等形式存在的未加工的、半结构化和非结构化的数据。Value价值•价值密度低。但庞大的数据中蕴含着新知识,以及极其重要的预测价值。大数据平台框架管理模式的变迁决策、预策业务数据市场、金融、政策等等业务数据市场、金融、政策等等报表等决策、预策业务数据信息、预策大数据系统决策市场、金融、政策等等案例-谷歌流感趋势项目传统的流感预报会滞后大约两周的时间,这种滞后往往会导致严重的后果。谷歌发现,某些搜索字词可以很好地标示流感疫情的现状。Google流感趋势使用了经过汇总的Google搜索数据库来测流感疫情。案例-谷歌流感趋势项目2009年,H1N1病毒肆虐全球,谷歌的“全球流感地图”成功派上用场,准确预测出患病高发地区,有效地指导人们进行预防。案例-大数据在政务领域的应用大数据的发展,将极大地改变政府的管理模式,有利于节约政府投资、加强市场监管能力、提高政府决策能力、提升公共服务能力,实现区域化管理。2013年10月,济南电子政务数据交换平台正式启用。该平台基于云计算理念,成功将工商、国税、质检、公安、社保等20多个部门数据共享。国税局与地税局通过数据比对,发现了25000条数据差异,落实纳税企业5000多户,补缴税款2700多万元。推广:如将我国城镇居民医疗数据与保险数据对比分析可以优化保险企业报销比例,发现虚假报销行为;与制药厂数据比对分析可以调节药品的生产量与销售渠道。但医疗政策信息并不能发挥这样的作用。案例-政治选举在2012年奥巴马的竞选团队对数以千万计的选民邮件进行数据挖掘,精确预测出更拥护奥巴马的选民类型,并进行了有针对性的宣传,从而帮助奥巴马成为了美国历史上唯一一位在竞选经费处于劣势下实现连任的总统。案例-《爸爸去哪儿》大数据解读新华社新媒体中心联合数托邦创意分析工作室抓取了新浪微博上提及“爸爸去哪儿”45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系进行数据分析。结果发现:《爸爸去哪儿》不仅成为名副其实的“口碑王”,还使娱乐节目发生了很多微妙变化。案例-《爸爸去哪儿》大数据解读粉丝性别比例:“爸爸粉”女性占到八成。难道是因为星爸太帅?当然,这与微博中女性用户占比较高和她们更爱分享转评的习惯也有关。用户年龄分布:覆盖适龄婚育群体,观众气质更显成熟。不少适龄青年发微博称,“看到某某,我也好想结婚,想有个这样的儿子/女儿。”地区偏好排行:《爸爸去哪儿》的观众明显向GDP高地聚集。对湘派娱乐节目免疫力极强的京、沪、苏、蜀等地罕见上榜。《爸爸去哪儿》偏好度前十省份中,有5个GDP十强省份,涵盖3个直辖市。这是否能说明,一部分“先富起来”的人,对亲子关系有更深的焦虑和更多的期待?案例-《爸爸去哪儿》大数据解读赞助商潜在赞助商明星同类节目竞争者节目组观众大数据解读可能的受益者满足了自己“八卦”的需求。对这个节目有了深入的了解。从《爸爸去哪儿》的成功中可以学到什么?本次赞助是否成功?成功在哪里?为以后广告的投放提供了经验。了解了自己及孩子在观众心中的“热度”,为下一步转型及孩子未来的规划提供参考。根据之前的数据分析,大胆推出了低成本同名电影并大获成功!第二季的拍摄紧锣密鼓地进行着……为决策提供支持。若自己的目标客户与该节目的观众一致,可以考虑下一季的赞助。案例-纸牌屋的创作在《纸牌屋》是从3000万付费用户的数据中总结收视习惯、选择,仔细分析400万条评论、300万次主题搜索,并对用户喜好精准分析的基础上进行创作的。最终,拍什么、谁来拍、谁来演、怎么播,都由数千万观众的客观喜好统计决定,是用大数据“算”出来的电视剧。案例-大数据在金融领域的应用大数据助力推进高频金融交易和小额信贷高频交易:目前美国股市每天的成交量高达70亿股,通过对历史和实时数据的挖掘创新,以创造和改进量化交易模型,并将之应用于基于计算机模型的实时证券交易过程中。据统计其中高达三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。小额信贷:截止2013年底阿里巴巴数据平台服务器上,已积攒超过100PB已处理的数据,包括交易、金融、SNS、地图、生活服务等多种数据类型,依托阿里电商平台强大的数据体系和平台支撑,阿里金融开创了一种“纯信用、无抵押、免担保”的小额贷款模式,从而给数十万小微企业,放贷数百亿元,坏账率仅为0.3%左右,低于商业银行水平。案例-纽约沙井盖爆炸预测在每年纽约有很多沙井盖因内部失火发生爆炸,后来相关部门对足够围绕地球三周半的地下电缆和数万个沙井盖的历史数据进行了处理,从数据中发现了大型沙井盖爆炸的106种预警情况,并成功预测出了高危沙井盖。这样,包含这些预警指标的预测模型就建立起来了,可用于对以后的沙井盖爆炸做出预测,帮助公司事前做出针对性的维修决策。案例-CPI预测美国劳工统计局每个月都要公布CPI,这些数据对投资者和商家都非常重要。政府为了得到这些数据,每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是这个采集结果的公布会有几周的滞后。MIT的两位经济学家通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。通过把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。案例-百度迁徙图国内有2亿手机用户使用百度地图,用户每次位置变化,百度都能得到数据。把手机网民的定位信息汇总成大数据进行分析,就能勾勒出人们的迁徙轨迹。房产道路广告……案例-智能电表智能电表部署后,每隔5分钟就从用户处读取一次数据,从而产生海量用电信息。错峰用电……平衡用电住房空置率违建用电分析大数据时代的机遇当前,我国工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。这也是李克强总理提出的“互联网+”行动计划的重要组成部分。机遇——大数据技术促进国家和社会发展大数据时代的机遇大数据正在对每个领域都造成影响,包括商业、经济等领域。大数据正在促生新的蓝海,催生新的经济增长点。主动地拥抱这种变化,从战略到战术层而开始自我的蜕变和进化将会让企业更加适应这个新的时代,大数据蓝海成为未来竞争的制高点。机遇——大数据蓝海成为企业竞争的新焦点4月16日,中石化宣布牵手阿里,对部分传统石油化工业务进行升级。中石化与阿里巴巴合作意在将所有网点收