带您认识大数据本刊编辑部“大数据”的由来2008年9月4日,英国《自然》杂志刊登了一个名为“BigData”的专辑,首次提出大数据概念,该专辑对如何研究PB级容量的大数据流,以及目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。2011、2012年达沃斯世界经济论坛将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国际发展新的可能性》等系列报告。2011年以来,中国成立了大数据委员会,研究大数据中的科学与工程问题,科技部《中国云科技发展“十二五”专项规划》和工信部《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。业界普遍认为,2013年是中国“大数据元年”。“大数据”的内涵【定义】继物联网、云计算之后,“大数据”已迅速成为大家争相传诵的热门科技概念。“大数据”作为信息社会发展的一个新生事物,目前尚处在逐渐被认识、被应用的初始阶段,无论是学术界还是IT行业对大数据的理解各有侧重,尚未形成一套完整的理论体系。全球最具权威的IT研究与顾问咨询公司Gartner将“大数据”定义为“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。《互联网周刊》则认为,“大数据是通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力”。国家信息中心有关专家将“大数据”广义地界定为,“我国现代信息化进程中产生的和可被利用的海量数据集合,是当代信息社会的数据资源总和,是信息时代的全数据,既包括互联网数据,也包括政府数据和行业数据。”【属性】随着大数据的发展,大数据的内涵已不仅仅局限于技术维度,而是在演变过程中不断扩展,形成了一个语义更加丰富、维度更加多元的综合性的概念。大数据是一类海量信息的数据集,是一项对海量数据进行快速处理并获取有价值信息的技术,更是一种新的认知世界和改造世界的思维方式和能力。大数据开启了一个以数据为基本元素的、以数据为战略资产的时代,在大数据时代掌握了数据就意味着拥有了核心竞争力。大数据时代让社会朝着更加个性化、民主化、自由化、开放化的方向发展。1.“4V”特征大数据在诞生之初仅仅是一个IT行业内的技术术语,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的内容特征。一是数据体量巨大(Volume)。国际数据公司(IDC)的研究结果表明,截至2012年,人类生产的所有印刷材料的数据量是200PB。IBM研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。【注:计算机存储单位一般用Byte、KB、MB、GB、TB、PB、EB、ZB、YB表示,它们之间的换算关系是:1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB……以此类推。】二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。链接——大数据时代,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器,无一不是数据来源或者承载的方式。新出现的数据类型有以下几类:1、以模拟形式存在的记录,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。2、移动互联网出现后,移动设备传感器收集的大量的用户点击行为数据。3、电子地图产生的大量的数据流数据。这些数据与传统数据反映一个属性或一个度量值相区别,代表着一种行为、一种习惯。4、大量的互联网用户创造出海量的社交行为数据,反映出人们行为特点和生活习惯。5、电商户崛起产生的大量网上交易数据,包含支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为等,其实质是信息流和资金流数据。6、互联网搜索引擎上用户的搜索行为和提问行为聚集的海量数据。三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。2.核心技术大数据是一项能够对数量巨大、来源分散、格式多样的数据进行采集、存储和关联性分析的新一代信息系统架构和技术,分为四个层次。数据采集与预处理——通过RFID射频技术、传感器以及移动互联网等方式获得各种类型的海量数据,并完成对已接收数据的辨析、抽取、清洗等操作。数据存储与管理——用存储器把采集到的数据存储起来,建立相应的数据库进行管理和调用,主要解决大数据可存储可处理及有效传输等关键问题。数据分析与挖掘——是大数据的最核心技术,主要是在现有的数据上进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。数据展现与应用——将隐藏于海量数据中的信息挖掘出来,从而提高各个领域的运行效率。在我国,大数据重点应用于以下三大领域:商业智能、政府决策、公共服务。3、社会属性大数据能够帮助人们从信息社会海量数据中发现新知识、创造新价值、提升新能力、形成新业态。人们用大数据的方法和意识来认知世界和改造世界,就是大数据思维。大数据思维主要有以下几个方面的特性。全局大局思维。大数据研究的对象是所有样本,而非抽样数据,关注样本中的主流,而非个别,这要求应用人员必须有全局和大局思维。开放包融思维。数据分享、信息公开的分享资源的同时,也在释放善意,取得互信,在数据交换的基础上产生合作,这将打破传统封闭与垄断,形成开放、共享、合作思维。大数据不仅关注数据的因果关系,更多的是相关性,提高数据采集频度,而放宽了数据的精确度,容错率提高,用概率看待问题,使人们的包融思维得以强化。优质服务思维。互联网通过免费的基本服务换来了大量客户数据的积累,从经济学角度来看,所有的免费都是不可持续的。这要求大数据使用者有能力依靠挖掘数据,改变价值的生成基础和价值链条的新价值,用更优质服务、提升变现能力来实现可持续发展。学习趋势思维。研究数据相关性,使人们更容易提前发现事物的规律,预测事物进展的趋势,大数据就是通过成功的预测而引起广泛关注的。成本控制思维。原来的社会治理模式中,用增量来配置社会资源,机构和人员不断扩大,成本不断加大。大数据让社会资源的存量得以精确配置,高效实用,避免忙闲不均,社会治理由劳动密集型到技术动态调度转变。创造性思维。创造性思维是大数据思维方式的特性之一,通过对数据的重组、扩展和再利用,突破原有的框架,开拓新领域、确立新决策,发现隐藏在表面之下的数据价值,数据也创造性地成了可重复使用的“再生性”资源。大数据应用历来的变革都是由生产工具推动思维方式转变开始的,通过新思维重新重组社会、国家的战略、结构、文化和各种策略,成为推动历史前进的动力。作为最新的生产工具,大数据将成为治国的利器,可以实现治国理念、工具、目标的现代化,为推进国家治理体系和治理能力现代化提供强劲的动力。另一方面,大数据产生于各行各业,大数据引导的变革也必将影响到各行各业。未来,大数据将成为社会基础设施的一部分,跟公路、自来水、电一样,成为人们生活不可或缺的一部分。如果说云计算主要提供了强大的后台运算能力,对大众来说,看不见摸不着;那么大数据却是和人们的生活紧密相关的,应用可见可感可知,以下为典型的应用场景。1、宏观调控和财政支出政府利用大数据技术了解各地区的经济发展情况,各产业发展情况,消费支出和产品销售情况,依据数据分析结果,科学地制定宏观政策,平衡各产业发展,避免产能过剩,有效利用自然资源和社会资源,提高社会生产效率。大数据还可以帮助政府进行监控自然资源的管理,无论是国土资源、水资源、矿产资源、能源等,大数据通过各种传感器来提高其管理的精准度。同时大数据技术也能帮助政府进行支出管理,提高公信力和监督财政支出。2、社会群体自助及犯罪管理将大数据技术用于舆情监控,收集到的数据除了解民众诉求,降低群体事件之外,还可以用于犯罪管理。大量的社会行为正逐步走向互联网,人们更愿意借助于互联网平台来表述自己的想法和宣泄情绪。国家可以利用社交媒体分享的图片和交流信息,来收集个体情绪信息,预防个体犯罪行为和反社会行为。3、医疗行业医疗行业拥有大量的病例,病理报告,治愈方案,药物报告等等,在未来,可以借助于大数据平台可以收集不同病例和治疗方案以及病人的基本特征,建立针对疾病特点的数据库。如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制定出适合病人的治疗方案,帮助更多人及时进行治疗。同时这些数据也有利于医药行业开发出更加有效的药物和医疗器械。医疗行业的数据应用一直在进行,但是数据没有打通,都是孤岛数据,没有办法起大规模应用。未来需要将这些数据统一收集起来,纳入统一的大数据平台,为人类健康造福。4、生物技术主要是指大数据技术在基因分析上的应用,通过大数据平台人类可以将自身和生物体基因分析的结果进行记录和存储,利用建立基于大数据技术的基因数据库。大数据技术将会加速基因技术的研究,快速帮助科学家进行模型的建立和基因组合模拟计算。基因技术是人类未来战胜疾病的重要武器,借助于大数据技术的应用,人们将会加快自身基因和其它他生物的基因的研究进程。未来利用生物基因技术来改良农作物,利用基因技术来培养人类器官,利用基因技术来消灭害虫都即将实现。5、食品安全在数据驱动下,采集人们在互联网上提供的举报信息,国家可以掌握部分乡村和城市的死角信息,挖出不法加工点,提高执法透明度,降低执法成本。国家可以参考医院提供的就诊信息,分析出涉及食品安全的信息,及时进行监督检查,第一时间进行处理,降低已有不安全食品的危害。参考个体在互联网的搜索信息,掌握流行疾病在某些区域和季节的爆发趋势,及时进行干预,降低其流行危害。政府可以提供不安全食品厂商信息,不安全食品信息,帮助人们提高食品安全意识。6、交通交通的大数据应用主要在两个方面,一方面可以利用大数据传感器数据来了解车辆通行密度,合理进行道路规划包括单行线路规划。另一方面可以利用大数据来实现即时信号灯调度,提高已有线路运行能力。机场的航班起降依靠大数据将会提高航班管理的效率,航空公司利用大数据可以提高上座率,降低运行成本。铁路利用大数据可以有效安排客运和货运列车,提高效率、降低成本。7、天气预报借助于大数据技术,天气预报的准确性和实效性将会大大提高,预报的及时性将会大大提升。对于重大自然灾害,例如龙卷风,通过大数据计算平台,人们将会更加精确地了解其运动轨迹和危害的等级,有利于帮助人们提高应对自然灾害的能力。天气预报的准确度的提升和预测周期的延长将会有利于农业生产的安排。8、农牧业大数据的分析将会更加精确帮助农牧民做好自然灾害的预防工作。农民可以采集农产品生长信息、病虫害信息,实现农业的精细化管理。大数据同时也会帮助农民依据消费者消费习惯决定来增加哪些品种的种植,减少哪些品种农作物的生产,提高单位种植面积的产值,避免产能过剩,同时有助于快速销售农产品,完成资金回流。牧民可以通过大数据分析来安排放牧范围,有效利用牧场。渔民