硕士研究生读书报告题目企业中的大数据管理和应用作者姓名王建荣作者学号21551079指导教师张志猛学科专业大数据所在学院软件学院提交日期二○一五年十一月TheManagementandApplicationofBigDatainEnterpriseADissertationSubmittedtoZhejiangUniversityinpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineeringMajorSubject:SoftwareEngineeringAdvisor:ZhangZhimengByWangJianrongZhejiangUniversity,P.R.China2015摘要现在的社会是一个信息化、数字化的社会,互联网、物联网和云计算技术的迅猛发展,使得数据充斥着整个世界。将大量地原始数据汇集在一起,通过智能分析、数据挖掘等技术分析数据中潜在的规律,以预测以后事务的发展趋势,有助于人们做出正确的决策,从而提高各个领域的运行效率,取得更大的收益。同时,大数据真正的价值在于科学收集数据,突破现有数据信息孤岛,以及在经济、社会和公共领域里面出现的信息障碍。如何将大数据管理好,是对企业的考验。然而,随着大数据广为各个行业所使用,安全隐患将是大数据产业面临的重大挑战。关键词:大数据,大数据管理,大数据应用AbstractNowthesocietyisasocietyofinformatizationanddigitization,therapiddevelopmentoftheInternet,Internetofthingsandcloudcomputingtechnology,makethedatafilledwiththewholeworld.Gatheringalotoforiginaldata,throughtheintelligentanalysisanddataminingtechnologyanalyzethedatapotentialrule,topredictthedevelopmenttrendofaffairsafter,helpspeopletomaketherightdecisions,soastoimprovetheoperationefficiencyofvariousfields,andmakegreatergains.Atthesametime,therealvalueofbigdataisthatscientificdatacollection,breakthroughtheexistingdatainformationisolatedisland,andinformationobstacleintheeconomic,socialandpublicdomain.Howtomanagethebigdata,isatrialforenterprises.However,asthewidelyusageinvariousindustries,thesecurityofbigdatawillfacetheseriouschallenges.Keywords:bigdata,bigdatamanagement,bigdataapplication1引言“大数据”从2012年预热,到2013年被各行各业所提及,各种舆论声音纷杂,而其作为时下最火热的IT行业的词汇,已经贴近我们的生活。徐子沛的《大数据》不是描述大数据的技术类书籍,它实际上更偏社会科学多一些。作者徐子沛以美国的数据管理发展历程,包括数据统计、数据方面立法、数据可视化分析的发展方向、数据管理面临的困局等作为主体,通过讲述美国半个多世纪以来信息开放的历史进程,作者列举了大量大数据应用的例子,使得读者可以饶有兴趣地感受到隐藏在大数据后面的巨大能量,而不是某些过于偏技术性的书那样枯燥无味。数据是对信息数字化的记录,其本身并无意义;信息是指把数据放置到一定的背景下,对数字进行解释、赋予意义(P35)。在我国现有制度下,数据的统计充满了各种漏洞,到现今为止应该还没有完整的系统可以有效收集、共享各类数据和信息。同时许多数据,需要积累到一定量和程度才有研究分析价值。书中引用《笑傲江湖》岳不群的话别有一番深意——岳不群叹了口气,缓缓的道:“三十多年前,咱们气宗是少数,剑宗中的师伯、师叔占了大多数。再者,剑宗功夫易于速成,见效极快。大家都练十年,定是剑宗占上风;各练二十年,那是各擅胜场,难分上下;要到二十年之后,练气宗功夫的才渐渐的越来越强;到得三十年时,练剑宗功夫的便再也不能望气宗之项背了。然而要到二十余年之后,才真正分出高下,这二十余年中双方争斗之烈,可想而知。”(P90)这个时代的可悲之处是一出手便要看成效,很多时候已经容不得厚积薄发。2大数据的基本概念现在的社会是一个信息化、数字化的社会,互联网、物联网和云计算技术的迅猛发展,使得数据充斥着整个世界。人们每天都接触到各种各样的数据及信息,人们依赖于数据,统计学界一句名言:“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”收集海量的各种类型的数据,并快速获取影响未来的信息能力,这是大数据技术的魅力。未来,决定、评价各界价值的最大核心在于数据。百度百科给出了它的定义:大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。其具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)。随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。著云台的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量。那么大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……美国互联网数据中心(IDC)指出,互联网上的数据每年将增长50%以上,每2年变将翻一番,同时IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。数据的演变大致经历了3个阶段。(1)运营式系统阶段。这个阶段的数据产生是被动的,通常是伴随着运营系统而产生记录在数据库中,比如销售、交易系统等。(2)用户原创内容阶段。这个阶段数据的产生式主动的,如博客、微博、微信等的出现,使人们主动在互联网上发表自己的意见、想法等。(3)感知式系统阶段。这个阶段数据产生的方式是自动的,随着科学技术的发展,出现了注入传感器之类的设备,这些设备可以随时随地产生数据,这个阶段才是促成了大数据的出现。3企业中的大数据管理及应用发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,这对于提升企业综合竞争力和政府的管制能力具有深远意义的影响,将大量地原始数据汇集在一起,通过智能分析、数据挖掘等技术分析数据中潜在的规律,以预测以后事务的发展趋势,有助于人们做出正确的决策,从而提高各个领域的运行效率,取得更大的收益。毫无疑问,在这样的大数据时代,数据是最关键的。如何将大数据管理好,是对企业的考验。当企业的某项资产非常重要,数量巨大时,就需要有效管理。如今,数据已经成为这种资产。以前人们还不会将它看做是资产,而是一种附属物。客户来办理业务,在系统中产生了这种附属物。而现在,发现在客户办理业务这条信息中,蕴含这一些客户的需求,成千上万条这类信息累积下来,就能洞察客户所需,为设计新产品,为客户个性化营销产生新的价值。数据变成一种资产了,需要被管理起来。数据仓库是管理数据的工具。在近二三十年里,以某种类似蜗牛的速度爬行,它始终还是贵族家的玩具。只有那些多金的买主才会为它买单。这让数据管理变得高高在上,数据当做资产只是停留在理念层面。人们还在争论着,数据仓库能够给我们带来什么?有人说,体现数据仓库的六项价值——“能快速、及时、方便、准确而安全地访问整合过的数据。”现在看看,发现这个描述还蛮符合大数据时代,对数据管理的需求。大数据的重要性正在不断显现,大数据将在一段时间内成为各个产业发展的重点。即便如此,人们不得不面临一个难题,人们如何去挖掘有用的数据,怎么将数据运用到未来的应用中。目前,市场对新增数据的利用率增长不足5%。中国工程院院士邬贺铨认为,“大数据”已经渗入到人们生活的每个角落,中国各方已经认识到数据所带来的财富,并在积极着手挖掘这个巨大的产业。大数据、智能化生产以及无线网络三种技术将引起新世纪的技术变革,直接催生第三次工业革命。他同时就大数据在各个领域的应用做具体分析。(1)制造业:通过大数据的交流分析,优化工厂的生产流程,可将工厂的运转性能提高40%至60%,并进一步挖掘企业的战略形式。(2)农业:通过对手机上农产品“移动支付”数据、“采购投入”数据和“补贴”数据分析,可预测农产品的生产趋势,政府可依次制定出激励措施和确定合适的作物存储量,还可以为农民提供进入服务。(3)金融业:华尔街德温特资本市场公司分析全球3.4亿微博账户留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司2012年一季度获得7%的收益率。阿里公司则根据淘宝上中小企业的交易状况,筛选出财务健康和诚信的企业,从而无需担保来放贷,目前已放贷300多亿元,坏账率仅0.3%,大大低于商业银行。(4)社会管理:运营商拥有大量的手机数据,通过对手机数据的挖掘,不针对个人而是着眼于群体行为,可从中分析出实时动态的流动人口的来源及分布情况;出行和实时交通客流信息及拥塞情况;利用手机用户身份和位置的检测可了解突发性事件的聚集情况。以及利用短信、微博、微信和搜索引擎收集热点事件与舆论挖掘,了解疾病流行情况等。(5)电信运营商管理:运营商可以建立网络管理平台,通过挖掘用户数据,更好服务用户,优化资源配置和网络规划。(6)信息智能化服务:在Web1.0年代,网络内容由网站专业人员产生;而今,内容主要由网民及物件产生;若发展到Web4.0,内容将具备自组织、感知、自配置等特点,即搜索的结果如博士生写论述一样。此外,还能进行语音搜索和个性化搜索,将移动互联网的小屏幕终端解放出来,网络也可识别客户的移动手机屏幕分辨率及页面属性,形成适合终端播放的文件和视频流,终端显示时能对图像进行拼接及屏幕播放等。(7)政治领域:奥巴马竞争团队有数干名志愿者,他们通过社交网络和微博等收集选民的爱好和关注,利用软件分析并建立选民档案,例如某个选民在Facebook或者Twitter上的大部分帖子都是关于环保和医疗成本,就可通过电子邮件或短信、微博发一条源自奥巴马专门谈论环境问题的信息让该选民有理由支持总统连任,同时还可从选民那里得到新的反馈。(8)医疗保健:谷歌公司与美国疾病控制和预防中心等机构合作,依据网民搜索内容分析全球范围内流感等病疫传播情况。例如美国某地方发生流感,人们可通过微博询问最佳的看病场所。社交网络还能为许多慢性病患者提供临床症状交流和诊治经验分享平台。医院借此可获得足够多的临床效果统计。总而言之,大数据的经济价值就是使各个领域减少成本支出,获得更大收益。大数据能够使制造业设备装配成本降低五成,零售商利用大数据可增加六成的运营利润,服务提供者利用全球个人位置数据可获得6000亿美元的潜在