数据挖掘与商务智能大数据时代的大数据时代的大数据时代的数据是宝贵的财富,其中蕴含大量有用的(有助于管理和决策)信息和知识。计算机和通讯技术的发展,使数据量急剧增加,人类进入大数据时代。收集、传输、存储、整合、分析与挖掘数据的各项技术快速发展。大数据时代,数据分析与数据挖掘作为一门信息技术,其兴起主要是受数据积累的增长和对数据分析的需求的驱动。在大数据时代,我们共同探讨数据分析与数据挖掘的思想、方法、工具和应用前景。尽量向大家介绍数据挖掘与商务智能的全貌,给一些资料性的信息。由于数据挖掘与商务智能涉及的方法广泛,软件、工具、公司太多,应用太广,此次以介绍方法为主。大数据挖掘与商务智能概论大数据将变革既有数据观大数据”对社会发展的影响商务智能和数据挖掘的作用云计算构建新型信息基础设施信息时代的高科技犯罪目录大数据挖掘与商务智能概论大数据将变革既有数据观大数据”对社会发展的影响商务智能和数据挖掘的作用云计算构建新型信息基础设施信息时代的高科技犯罪大数据挖掘与商务智能概论大数据将变革既有数据观大数据”对社会发展的影响商务智能和数据挖掘的作用云计算构建新型信息基础设施信息时代的高科技犯罪大数据挖掘与商务智能概论第一部分第一从数据谈起数据无所不在大数据现象、来源与特征大数据现象与来源(1)•从2012年2月18日开始,全国70万家三上企业和房地产开发经营企业将在统一的数据采集和处理平台上,通过互联网直接向国家数据中心。•2015年实现数据联网直报“三个全部”:所有由调查对象填报的调查,全部通过互联网直接向国家数据中心报送;所有现场调查,全部由调查员手持电子终端设备现场采集数据,并通过网络直报国家数据中心;全部国家统计调查,均在统一软件平台处理数据。国家(省、市)统计局(http://www.stats.gov.cn8)国家统计局推进“大数据”应用2013年11月19日下午,国家统计局与百度、阿里巴巴等11家企业签订了大数据战略合作框架协议,共同推进大数据在政府统计中的应用。2014年9月30日,国家统计局第二批企业大数据战略合作协议签约仪式在京隆重举行,搜房、浪潮、数海等6家企业参与签约。大数据现象与来源(2)金融数据(http://www.jrj.com/)低频数据:日数据高频数据:金融市场中的逐笔交易数据和逐秒交易数据超高频数据:实时数据金融大数据的挑战与应对在以网络化和数字化为基本特征的新经济时代,金融产业日渐回归本质,表现为金融数据流的产生、交换、存储、分析以及使用。大数据对金融业带来了剧烈的挑战冲击,我国金融机构需要明确大数据战略的顶层设计,加强大数据基础设施建设,实施稳妥的大数据安全策略,方能从容迎接大数据时代。在超市中,数据通过条码扫描机获得。这样的“购物蓝”数据库由大量的交易记录组成。RFID技术与物联网应用大数据现象与来源(3)什么是物联网?全面感知可靠传输智能处理感知传输智能利用RFID、传感器、二维码等能够随时随地采集物体的动态信息。通过网络将感知的各种信息进行实时传送。利用计算机技术,及时地对海量的数据进行信息控制,真正达到了人与物的沟通、物与物的沟通。物联网的大数据挑战物联网不仅仅是传感器,物联网是提供支撑智慧地球的一个基础架构,物联网的存在使这种基于大数据的采集以及分析变成了一种可能,这面临着三项挑战。物联网的边缘计算。物联网的中间件。物联网的运营管理平台。全球四大卫星导航系统北斗卫星导航系统美国全球定位系统俄罗斯格洛纳斯欧盟伽利略系统到2020年,北斗卫星导航系统将拥有35颗卫星截止2016年6月12日,已发射23颗,形成覆盖全球的卫星网络,九省示范应用,LBS。大数据现象与来源(4)北斗“三步走”的发展战略GEO(GeosynchronousEearthOrbit):地球静止轨道卫星IGSO(InclinedGeosynchronousSatelliteOrbit):倾斜轨道同步卫星MEO(MediumEarthOrbit):中高轨卫星大数据与北斗系统把短信和导航结合,是中国北斗卫星导航系统的独特发明。北斗卫星导航系统的应用目前逐渐形成规模化、标准化的趋势,已向民用用户全面开放,成功应用于个人位臵服务、气象应用、交通管理、运输管理、应急救援、精密授时、精细农业等多个行业。近期,东南亚四国(泰国、老挝、文莱缅甸)都于中国政府签订协议,采用我国的北斗导航系统,同时中国与巴基斯坦有望在近期签订北斗系统合作协议,成为第五个使用北斗导航的国家。生物信息学(人类基因组计划)神经信息学(人类脑计划)大数据现象与来源(5)生命科学的大数据时代来临要解决当前生命科学的问题,需要从时空状态对生老病死进行解读,这就需要大数据,这种大数据揭示的就是大科学,这种大科学就是人类发展史上最大的产业。生命科学已进入大科学、大数据时代,基因资源源头。如何去储存这些资源,为未来研究的使用提供基础成为一个关键问题。为了适应更庞大数据存储、处理、分析与应用的要求,深圳华大基因研究院还和国家超算天津中心、深圳超算中心、广州超算中心等机构展开战略性合作。下一步,将通过云计算的模式来组织存储和处理相关数据。大数据现象与来源(6)19网络大数据20网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。网络数据是指用户浏览万维网所产生的日志信息,是等待分析和挖掘的信息宝库。横跨于大量不同行业中的企业组织已经把那些来自于网站的详细而又处于客户层面的行为数据源整合入它们自身的企业数据分析环境中。大数据引发的数据观变革第二部分我们来到大数据时代数据极简主义大数据:一切数据皆有用数据观、技术、成本的变化(硬件、软件和除理技术、来源)全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…人们从信息的被动接受者变成了主动创造者我们来到大数据时代20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念什么是大数据:BigData名词由来大数据=海量数据+复杂类型数据海量和非结构化,增长如此之块,以至于难以使用现有的数据库管理工具来驾驭,困难在于数据的获取、存贮、搜索、共享、分析和可视化等方面大数据的定义数据量复杂性:种类和速度销量库存薪酬表客户信息合约ERP/CRMWEB2.0广告博客搜索营销文本/图像网络日志大数据社会情绪音频/视频传感器RFID维基/博客微博金融信息个人数据位置信息政府信息气象数据保险信息EBPBTBGB维基的大数据定义大数据是任何超过了一台计算机处理能力的数据量亚马逊的大数据定义大数据是由局部数据汇聚而成能反映出整体的数据,整体的数据又随时空在不断膨胀。Informatica的大数据定义大数据=交易数据+互动数据+观测数据中国电信的大数据定义数据量中心的大数据定义如果自然界中的事件完全不可预测地随机发生,人们的生活将无法忍受;与此相反,如果每一件事情都是确定的、完全可以预测的,则生活将是无趣的。利用因果关系解释观测的现象或预测未来存在逻辑和实际上的困难。大数据的理性认知[美]C.R劳与传统比较,大数据的分析处理的核心是预测和推断,根本的变革在于不刻意追求因果关系,而更多关注相关关系。也就是说,只要知道和什么有关,而不必强求为什么有关。[英]舍恩伯格大数据时代来临,使人类第一次有机会和条件在非常多和非常深入的层次获得和使用全面数据、完整数据和系统数据,简而言之就是样本=总体。[英]舍恩伯格大数据为政府统计提供了总体性、非结构化、丰富真实的原始资料,可以极大地缩短数据采集时间,减少报表填报任务,减轻调查对象负担,提高统计数据质量。国家统计局马建堂大数据,也叫全局数据、总体数据,数据量越大其预测和推断的准确性越高1.体量Volume2.多样性Variety3.价值密度value4.速度Velocity大数据的异构和多样性,多种形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义以大量的不相关信息对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合大数据:4V特性非结构化数据超大规模的爆发式增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍,占总数据量80~90%大数据不仅仅是数据“大”多大?PB级比大更重要的是数据的复杂性、全面性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值软件是大数据的引擎大数据与传统数据库的区别大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:•结构化程度:传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;•大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。•噪声(异常)数据的处理:传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理;大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。国际企业角力大数据www.gjzq.com.cnwww.gjzq.com.cnEMCEMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。EMC的大数据解决方案包括40多个产品。•2010年7月收购数据库软件供应商Greenplum,花费3亿美元•2009年七月收购数据复制解决方案提供商DataDomain,花费24亿美元•不一定和大数据完全相关,EMC从2009年起收购了ArcherTechnologies,SourceLabs,FastScaleTechnology,Configuresoft,andVaronisSystems。IBMIBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析在过去四年中,IBM已经投入超过120亿美元进行了23项相关并购,其中包括:•2010年9月收购数据库分析供应商Netezza公司,花费17亿美元•2010年10月收购网络分析软件供应商Coremetrics•2009年10月收购数据分析和统计软件提供商SPSS,花费12亿美元•2009年1月收购业务规则管理软件供应商I