大数据相关理论和技术(1)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1大数据相关理论与技术(1)胡经国一、用解构方法系统认知大数据相关文献就“用解构方法系统认知大数据”进行了论述。现将其介绍于下,供读者参考。本文在篇章结构、内容和文字上对原文献作了一些修改,并且添加了一些小标题,特此说明。㈠、大数据结构的三个层面大数据就是互联网发展到现阶段的一种表象或特征。在以云计算为代表的技术创新基础上,这些原本很难收集和使用的数据开始容易被利用起来。通过各行各业的不断创新,大数据将逐步为人类创造更多的价值。然而,想要系统认知大数据,必须用解构方法全面细致地解析它结构。为此,现从大数据结构的三个层面来系统认知大数据。1、理论(Theory)层面大数据结构的第一层面是理论。理论是认知的必经途径,也是被广泛认同和传播的基线。理论层面包括以下4个方面:⑴、特征定义从大数据的特征定义来理解IT行业对大数据的整体描绘和定性。⑵、价值探讨从对大数据的价值探讨来深入解析大数据的珍贵所在。⑶、现在和未来从大数据的现在和未来来洞察大数据的发展趋势。⑷、大数据与隐私从大数据与隐私这个特别而重要的视角来审视人和数据之间的长久博弈。2、技术(Technology)层面大数据结构的第二层面是技术。技术是大数据价值体现的手段和发展的基石。技术层面包括以下4个方面:云计算、分布式处理技术、存储技术和感知技术。也就是说,要分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。3、实践(Utilization)层面大数据结构的第三层面是实践。实践是大数据价值的最终体现。实践层面2包括以下4个方面:互联网的大数据,政府的大数据,企业的大数据和个人的大数据。也就是说,要分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象和即将实现的蓝图。㈡、大数据相关理论1、特征定义最早提出“大数据时代到来”的是麦肯锡。他指出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”⑴、大数据的“4V”特征IT业界将大数据的特征归纳为“4V”(数量Volume,多样Variety,价值Value,速度Velocity)。或者说,大数据的特征有以下4个方面:①、数据体量巨大大数据的起始计量单位至少是PB(1024TB)、EB(100万TB)或ZB(10亿TB)。②、数据类型繁多比如,网络日志、音频、视频、图片、地理位置信息等等。③、价值密度低而商业价值高④、处理速度快这一点也与传统的数据挖掘技术有着本质的不同。其实,这“4V”并不能真正说清楚大数据的所有特征。⑵、大数据思维有一种说法:三分技术,七分数据,得数据者得天下。这句话的正确性已经不用再去论证了。维克托·迈尔·舍恩伯格在《大数据时代》一书中举了不少例证,都是为了说明一个道理:在大数据时代,要用大数据思维去发掘大数据的潜在价值。那么,什么是大数据思维?维克托·迈尔·舍恩伯格认为,①、需要全部数据样本而不是抽样;②、关注效率而不是精确度;③、关注相关性而不是因果关系。⑶、关于大数据的独到见解有关专家对于大数据有一些独到的见解。比如,“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”“非互联网时期的产品功能一定是它的价值;互联网时期的产品数据一定是它的价值。”“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”大数据的真正价值在于创造,在于填补无数个还未实现过3的空白。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等种类;而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。大数据的价值含量和挖掘成本,比其数量更为重要。2、价值探讨⑴、大数据是资产大数据是什么?在投资者的眼里,大数据是资产。比如,当Facebook上市时,在评估机构评定的有效资产中,大部分都是其社交网站上的数据。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。再如,美国Target(塔吉特公司)超市以孕妇怀孕期间可能会购买的20多种商品为基础,将所有用户的购买记录作为数据来源;通过构建模型分析购买者的行为相关性,能准确地推断出孕妇的具体临盆时间。这样,Target的销售部门就可以有针对性地在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。这个Target的例子是一个很典型的案例。它印证了维克托·迈尔·舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果我们通过采集驾驶员手机的GPS(卫星定位系统)数据,那么就可以分析出当前哪些道路正在堵车,并且可以及时发布道路交通状况提醒;如果通过采集汽车的GPS位置数据,那么就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群。这些分析数据适合卖给广告投放商。⑵、基于大数据形成决策的模式不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。从大数据的价值链条来分析,基于大数据形成决策具有以下三种模式:①、手握大数据,但是没有利用好比较典型的是金融机构、电信行业、政府机构等。②、没有数据,但是知道如何帮助有数据的人利用它比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。③、既有数据,又有大数据思维比较典型的是Google,Amazon,Mastercard等。⑶、大数据领域最具有价值的两种事物未来在大数据领域最具有价值的两种事物是:4①、拥有大数据思维的人这种人可以将大数据的潜在价值转化为实际利益。②、还没有被大数据触及过的业务领域这些业务领域是还没有被“挖掘”的“油井”、“金矿”,是所谓的“蓝海”。例如,Wal-Mart(沃尔玛)作为零售行业的巨头,其分析人员会对每个阶段的销售记录进行全面分析。有一次他们在无意中发现,虽然不相关但是很有价值的数据。在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加。于是,他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边。看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。还有一个有趣的例子。1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆、枪支、物资多少等等。有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为这样的战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并且取得了这场重要战役的胜利。这些例子真实地反映在各行各业。探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。3、现在和未来⑴、大数据的杰出表现让我们先看看大数据在当下有怎样的杰出表现:大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;5大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;大数据帮助企业提升营销针对性,降低物流和库存成本,减少投资风险,以及帮助企业提升广告投放精准度;大数据帮助娱乐行业预测歌手、歌曲、电影、电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。⑵、大数据变革浪潮将席卷全球其实,这些还远远不够。未来大数据的身影应该无处不在。就算无法准确预测大数据终会将人类社会带往哪种最终形态,但是可以相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快席卷全球。比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,那就是用户要买的下一本书。”Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。而当物联网发展到一定规模时,借助条形码、二维码、RFID(RadioFrequencyIdentification,射频识别)等能够唯一标识产品;传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析。这些数据能够支撑智慧城市、智慧交通、智慧能源、智慧医疗、智慧环保的理念需要。这些所谓的“智慧”,将是大数据的采集数据来源和服务范围。⑶、以人为本的大数据方针未来的大数据除了将更好地解决社会问题、商业营销问题和科学技术问题以外,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。比如,建立个人的数据中心,纪录每个人的日常生活习惯、身体体征、社会网络、知识能力、爱好性情、疾病嗜好、情绪波动……换言之,就是记录人从出生那一刻起的每一分每一秒,将除了思维以外的一切都记录和储存下来。这些数据可以被充分地利用于以下诸多方面:医疗机构将实时地监测用户的身体健康状况;教育机构更有针对性地制定用户喜欢的教育培训计划;服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;6政府能在用户的心理健康出现问题时有效地进行干预,防范自杀、刑事案件的发生;金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;如此等等。当然,虽然上面的一切看起来都很美好,但是是否以牺牲用户的自由为前提呢?只能说,在新鲜事物带来革新的同时,也同样带来了“病菌”。比如,在手机普及以前,大家喜欢聚在一起聊天。自从手机普及以后,特别是有了互联网,大家不用聚在一起也可以随时随地聊天,只是“病菌”滋生了。就是另外一种情形产生了:大家慢慢习惯于和手机共渡时光,人与人之间的情感交流仿佛永远隔着一张“网”。4、大数据与隐私⑴、隐私是大数据应用难以绕开的话题你或许并不敏感,当你在不同网站上注册个人信息以后,可能这些信息已经被扩散出去。当你莫名其妙地受到各种邮件、电话、短信的滋扰时,你不会想到自己的电话号码、邮箱、生日、购买记录、收入水平、家庭住址、亲朋好友等私人信息,早就被某些商业机构非法存储或贱卖给其它任何有需要的企业或个人了。更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。所以,用户隐私一直是大数据应用一个难以绕开的话题。⑵、没有专门的隐私法律法规目前,中国并没有专门的法律法规来界定用户隐私,在处理相关问

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功