大数据时代的创新者们

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据时代的创新者们作者李明(nasi)发布于2011年11月2日领域运维&基础架构主题《架构师》月刊,图形数据库,Hadoop,NoSQL,电子杂志,大数据,数据可视化,云计算,架构,数据存储分享到大数据的时代已然来临。IDC数据显示,在2006年全世界的电子数据存储量为18万PB,而如今这个数字已经达到180万PB,短短5年间就已经增长了一个数量级。而根据预测,2015年这个数字则会达到如同天文数字般的800万PB。就在此时此刻,海量数据依然源源不断地产生,从不停息。面对这些“大数据”,有些人叹息抱怨,害怕数据量的剧增对于现有IT架构的冲击;有些人积极主动,探寻应对海量数据的应对与解决之道;还有一些人,则是顺势而为,抓住时代发展的商业机会,成为富有活力的创新者。本文就将聊聊这第三种人。大数据的发展催生了诸多商业机会和商业模式。而这些公司所面对的独特的时代背景,就注定了它们必会受到市场和资本的追捧。它们中的一些或是已经融资成功,进入高速发展期;或是被成功收购,帮助投资人和创始人成功从项目中退出。而很多上市公司,也开始在这一领域动作频繁,积极布局,这也从侧面反应了这一领域的广阔前景和巨大的利润空间。大数据的生态系统IBM的架构师StephenWatt曾在《DerivingnewbusinessinsightswithBigData》一文中简单讲解过大数据的生态系统。简而言之,大数据的生态系统,就是数据的生存周期。数据从产生,到处理,再到价值提取,最后被消费掉,这整个过程就构成了大数据的生态系统。如下图所示。在这个生态系统中,无论是数据的存储、数据的处理、数据的分享、数据的检索、数据的分析,还是数据的可视化,都存在着不同的商业需求。需求的出现必然会导致创新的产生。所以,在每个步骤都有不少初创公司在深耕自己所在的领域,试图通过新技术和新方法来实现新的商业模式。数据的存储Amazon是大数据和云计算的先行者,它推出的S3云服务也早已成为云端存储的业界标准。通过易于使用的API,用户可以很方便地将各种数据对象放在云端,然后再像使用水电一般按用量收费。S3根据用户所占用的存储空间、请求数和数据流量进行阶梯定价收费。同时,S3还为对数据可靠性的要求并不高的用户提供了更为便宜的去冗余存储模式。AmazonS3服务是典型的付费服务商业模式,增长十分迅速。去年Q4共有2620亿个对象储存在S3上,而今年Q3这个数字已经翻了一倍,达到5660亿。更难得的是,AmazonS3的云服务真正让许多创业公司享受到了云计算带来的便捷。使用S3作为存储支持的文件分享服务Dropbox进行的最近一轮的融资,估值高达80亿美元,每天上传的文件多达2亿个。大数据时代另一个热点便是NoSQL,不但诞生了很多NoSQL的数据库产品,还围绕着NoSQL产生了不少新技术新模式。也许提起10gen这家公司,读者们会觉得陌生,但是说起他们的产品MongoDB,则是鼎鼎大名。由于其易用性和高性能,MongoDB在很多开发者眼中已然成为NoSQL的首选。10gen公司提供基于MongoDB的服务,包括商业支持、培训和技术咨询等等,像Foursquare、Craigslist这样知名的公司,都是10gen的客户。10gen于今年9月完成D轮2000万美元的融资。其他的NoSQL产品在大数据时代也广受注目。为企业提供基于Cassandra的Hadoop构建方案的创业公司DataStax近日宣布完成1100万美元的B轮融资;NoSQL数据库技术提供商Couchbase,则集合了CouchDB和memcached的设计者和开发人员,今日完成了一笔1400万美元的C轮融资;图形数据库厂商NeoTechnology也凭借其开源项目Neo4j获得1060万美元的融资。这些公司主要将融资用于NoSQL旗舰产品的研发,并努力提升和拓展市场份额,然后基于它们的产品开展业务,它们在盈利的同时,也为社区提供了高质量的NoSQL数据库产品,从而实现共赢。分布式文件系统也是大数据存储的方式之一。最早由Powerset开发的HBase就是基于HDFS(HadoopDistributedFilesystem)的分布式数据库。虽然目前还没有专门的商业公司来做针对HBase的业务,但HBase在业界已经有众多使用者,许多知名公司比如Facebook、Twitter、淘宝等都是HBase的用户。数据的处理Hadoop是大数据时代数据处理的首选。脱胎于GoogleMapReduce的Hadoop凭借其开源和易用的特性,很快成为了大数据时代的最耀眼的主角。目前,Hadoop已经成为大数据生态环境中不可或缺的一环,是拥有海量数据处理需求的公司的标准配置,许多商业创新和产品创新也都是围绕着Hadoop展开的。Yahoo也已经认识到了Hadoop的价值,将Hadoop拆分成一个独立的商业公司HortonWorks进行运营。虽然Yahoo是Hadoop最大的贡献者,也进行了Hadoop的商业化,但却没法阻止其他的颇具实力的竞争者进入这个前途无限的领域。Cloudera便是其中最耀眼的一个。且不说联合创始人中有Facebook和Google的精英们,就连Hadoop的创始人DougCutting也从Yahoo离职加入了Cloudera,这一举动当时在业界还引起了不小的震动。Cloudera最开始的模式是帮助企业管理数据,后来则转型为软件厂商。他们推出的软件发布包可以帮助企业更方便地搭建以Hadoop为中心的数据管理平台。Cloudera也是通过技术支持、培训和咨询等付费服务来盈利的,目前融资已达3600万美元。如果说Cloudera是依靠其华丽的精英团队来吸引客户的话,那么MapR则是通过过硬的产品来让业界认识到他们的价值。据称,经过MapR改造的Hadoop的速度可达原来的3倍。对于Hadoop的MapReduce模式,相信现在基本上已经没人提出质疑了,然而大家更关心的是,这玩意还能不能更快,MapR则很完美地回答了这个问题。EMC也宣布在一些产品使用MapR版本的Hadoop,而MapR也刚刚完成了2000万美元的融资。除了速度以外,Hadoop的易用性也是一个用户所关心的问题。虽然相比较其他的框架而言,Hadoop已经简化了许多使用MapReduce技术时所需要做的工作,但是对于终端用户而言可能还算不得十分友好。近日宣布完成570万美元A轮融资的海量数据管理软件商Platfora,就在试图解决这个问题。Platfora旨在提供一个更为友好且更具操作性的用户界面,而且这个产品可以兼容包括Cloudera和MapR在内的各个Hadoop版本,能够大大降低使用Hadoop的门槛,让更多的公司体验到Hadoop的技术优势。不仅仅是Hadoop本身,就连Hadoop的周边也不乏成功的创新者。AsterData已经成功地被老牌数据仓库厂商TeraData以2.63亿美元收购,他们的核心技术叫做SQL-to-MapReduce,可以将海量非结构化数据的处理技术和结构化数据的数据仓库技术结合在一起。而这种高速处理海量非结构化数据的能力,恰恰是传统数据仓库的公司所欠缺的,这也是为什么TeraData肯花如此大的价钱买下AsterData的原因。数据的分享数据本身也非常有价值。虽然,大部分的公司所面对的数据都是由内部系统或者交易记录日志之类的东西所产生的,但是这并不意味着他们不需要一些自己无法获得,或者已经被处理过的外部数据。因此,能够下载或者访问数据集,自然而然也就成为了商业需求,甚至美国政府都推出了官方的数据集网站可供下载。InfoChimps正是一家在线的数据集市,吸引了不少才华横溢的数据开发者。数据提供者可以将数据集上传至InfoChimps,可以供人免费下载,或者以一定的价格销售。另外,InfoChimps还提供很多API可供用户调用,在超过一定数量的免费API调用限额后,InfoChimps会向用户收取一定的费用。InfoChimps的目标就是让每个人都能找到自己需要的数据集,目前这家公司已经完成了A轮120万美元的融资。提供API服务的数据集分享公司并不止于此,Factual就是一家开放数据平台的公司。它所提供的多种数据集汉涵盖了本地服务、娱乐、教育和医疗等多个方面,不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中,为依赖数据的移动创新带来了很大的便利。Factual也是通过收费API调用的方式来盈利的,目前已经募集资金达2700万美元。数据的检索数据检索在搜索引擎时代已经不是什么新鲜事了,然而随着社交网络的盛行和大数据时代的到来,实时性检索的需求也就变得越来越强烈。事实上,实时性的需求一直以来都是存在的,只是受囿于技术和成本的原因而没有什么实质性的突破。如今,随着实时数据处理技术的不断成熟,实现实时性数据检索也已经成为可能。实时搜索引擎TopSy是目前少有的独立运营的实时搜索引擎,他们号称可以每秒钟索引100万份文档,这个速度基本上能够满足实时性的需求。目前TopSy主要索引的是Twitter的数据,它提供了API可供用户访问。在2011年1月间,TopSy共收到5亿次请求,绝大多数是来自于API的调用。因此,公司也在考虑推出收费的API服务,以解决目前公司盈利模式不明朗的问题。TopSy已经完成了C轮融资,融资总额度高达3000万美元。说到实时数据检索的问题,就不能不谈到Twitter刚刚推出的开源产品Storm。这个产品一经推出就立刻吸引了大家的目光。然而却少有人知道,Storm其实来源于Twitter刚刚收购的一家名为BackType的公司。这家公司由大名鼎鼎的YC进行孵化,在被收购以前就计划推出Storm,然而期间却经历了Twitter的收购,因此收购以后由Twitter发布Storm也是顺理成章的事。Storm每秒钟可以处理数百万的消息,非常适合实时消息处理,而这也许是最为吸引Twitter的地方。最近还有一件与实时数据检索相关的收购案颇为引人关注,全球最大的连锁零售商日前宣布收购了移动和社交广告公司OneRiot,然而这次收购的交易金额并未对外透漏,OneRiot也被并入了沃尔玛实验室。OneRiot最早是一家实时搜索公司,后来借此涉足广告领域,并关停了实时搜索,专注于实时广告业务,并开始提供应用内移动广告的社交服务。OneRiot最吸引沃尔玛的地方,应该就是所谓的BigData+FastData,将实时的数据处理与分析和广告联系起来,这也将是广告业未来发展的一个必然趋势。数据的分析在线数据分析服务平台是数据分析的趋势。Quantivo的口号是“BigDataAnalyticsforEveryone”,该平台可以从多种来源组合业务数据,对其进行整理和合并,然后让客户通过专有接口来访问甚至提问,平台会帮你找到最好的答案。另外一家提供在线分析平台的公司是最近刚刚完成8400万美元融资的OperaSolutions,这次融资也使该公司的估值达到5亿美元。用户将数据上传到OperaSolutions的平台上,然后OperaSolutions会针对用户的不同需求,结合行业专家的建议来为用户提供服务。该公司虽颇为低调,但年营收早已突破1亿美元。然而并不是每个公司都是服务导向性的公司,Palantir就是一家产品导向性的公司。这家由前PayPal员工和Stanford的一群科学家们所创建的公司,融资总额已接近2亿美元,估值高达25亿美元。Palantir主要是为政府和金融机构提供高级数据分析平台,该平台源自PayPal的反欺诈分析平台,将人工算法和强大的数据库扫描引擎整合在一起,帮助用户通过多种方式快速浏览相关的信息。更有趣的是,这家公司号称永远都不会有销售、营销和公关人员,坚持追究极致产品的乌托邦式工程师文化,完全通过口碑来推动公司的业务发展。随着社交网络的兴起,社交数据的分析也成为了热点。今年Saleforce就宣布以3.26亿美元的价格收购社交数据分析公司Radian6。Radian6的业

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功