1大数据时代的数据挖掘与商务智能2数据是宝贵的财富,其中蕴含大量有用的(有助于管理和决策)信息和知识。计算机和通讯技术的发展,使数据量急剧增加,人类进入大数据时代。收集、传输、存储、整合、分析与挖掘数据的各项技术快速发展。大数据时代,数据分析与数据挖掘作为一门信息技术,其兴起主要是受数据积累的增长和对数据分析的需求的驱动。3在大数据时代,我们共同探讨数据分析与数据挖掘的思想、方法和应用前景。尽量向大家介绍数据分析与数据挖掘的全貌,给一些资料性的信息。由于数据分析与数据挖掘涉及的方法广泛,软件、工具、公司太多,应用太广,此次以介绍方法为主。4大纲大数据的时代背景商务智能与数据科学基于统计的传统数据分析技术数据管理与数据挖掘概论数据挖掘与知识发现技术典型应用及案例分析5第一部分大数据的时代背景大数据的时代背景从数据谈起大数据现象与新信息世界观产业界与学术界的关注“大数据”对社会发展的影响6从数据谈起数据无所不在7“大数据”的时代背景8无所不在的数据(1)国家(省、市)统计局()•70万家企业联网“直报”统计数据•从2012年2月18日开始,全国70万家三上企业和房地产开发经营企业将在统一的数据采集和处理平台上,通过互联网直接向国家数据中心或国家认定的省级数据中心报送统计数据。国家统计局推进“大数据”应用2013年11月19日下午,国家统计局与百度、阿里巴巴等11家企业签订了大数据战略合作框架协议,共同推进大数据在政府统计中的应用。战略合作内容,主要是共同研究探讨建立大数据应用的统计标准,包括指标定义、口径、范围、分类等;确定利用企业数据完善、补充政府统计数据的内容、形式及实施步骤,包括数据采集、处理、分析、挖掘、发布等。在此基础上,合作双方将建立战略合作关系。910无所不在的数据(2)金融数据()低频数据:日数据高频数据:金融市场中的逐笔交易数据和逐秒交易数据。超高频数据:实时数据金融大数据的挑战与应对在以网络化和数字化为基本特征的新经济时代,金融产业日渐回归本质,表现为金融数据流的产生、交换、存储、分析以及使用。大数据对金融业带来了剧烈的挑战冲击,我国金融机构需要明确大数据战略的顶层设计,加强大数据基础设施建设,实施稳妥的大数据安全策略,方能从容迎接大数据时代。11金融业大数据十大趋势第一、市场数据集变得越来越庞大,业务对数据的细分粒度要求越来越高,以满足预测模型、业务预测和交易影响评估的需求。第二、新的监管和合规要求更强调治理和风险汇报,推动了全球性金融机构对更深入和透明的数据分析需求。第三、金融机构不断完善自身的企业风险管理框架,该基于主数据管理策略开发的框架可协助企业提高风险透明度,加强风险的可审性和管理力度。12第四、金融服务公司都希望能充分利用各种服务交付渠道的海量客户数据,开发新的预测分析模型,实现对客户消费行为模式进行分析,提高客户转化率。第五、在巴西、中国和印度等后发展中市场,经济和业务增长机会正在超越欧洲和美国,大量投资被投放到本地和云数据处理基础设施中。第六、“大数据”在存储和处理框架两方面的优势将帮助金融服务企业充分掌握业务数据的价值,降低业务成本并发掘新的套利机会。第七、面对“大数据”所带来的不断增加的数据量要求,需要对传统的数据传输工具ETL(提取、转换和加载)流程进行重新设计。13第八、大量历史客户支付行为数据的信用风险预测模型正在零售与公司贷款催收中得到大量应用,通过该技术,银行可以通过对不同客户违约和还款资料进行分析,对催收次序进行优化。第九、随着以平板电脑和和智能手机为代表的移动应用和互联网工具的迅速普及,技术基础设施和网络在对不同来源、不同标准数据进行处理、编索和整合方面的压力不断增大。第十、“大数据”推动了对数据处理算法的需求,提出对数据安全和访问控制的重视,并可有效降低对现有系统的影响。1415无所不在的数据(3)在超市中,数据通过条码扫描机获得。这样的“购物蓝”数据库由大量的交易记录组成。RFID技术与物联网应用什么是物联网?全面感知可靠传输智能处理感知传输智能利用RFID、传感器、二维码等能够随时随地采集物体的动态信息。通过网络将感知的各种信息进行实时传送。利用计算机技术,及时地对海量的数据进行信息控制,真正达到了人与物的沟通、物与物的沟通。物联网的大数据挑战物联网不仅仅是传感器,物联网是提供支撑智慧地球的一个基础架构,物联网的存在使这种基于大数据的采集以及分析变成了一种可能,这面临着三项挑战。物联网的边缘计算。物联网的中间件。物联网的运营管理平台。1718无所不在的数据(4)到2020年,北斗卫星导航系统将拥有35颗卫星(已发射16颗),形成覆盖全球的卫星网络,九省示范应用,LBS。全球四大卫星导航系统北斗卫星导航系统美国的GPS俄罗斯的格洛纳斯欧盟的伽利略系统北斗“三步走”的发展战略19GEO(GeosynchronousEearthOrbit):地球静止轨道卫星IGSO(InclinedGeosynchronousSatelliteOrbit):倾斜轨道同步卫星MEO(MediumEarthOrbit):中高轨卫星大数据与北斗系统把短信和导航结合,是中国北斗卫星导航系统的独特发明。北斗卫星导航系统的应用目前逐渐形成规模化、标准化的趋势,已向民用用户全面开放,成功应用于个人位置服务、气象应用、交通管理、运输管理、应急救援、精密授时、精细农业等多个行业。近期,东南亚四国(泰国、老挝、文莱缅甸)都于中国政府签订协议,采用我国的北斗导航系统,同时中国与巴基斯坦有望在近期签订北斗系统合作协议,成为第五个使用北斗导航的国家。2021无所不在的数据(5)生物信息学(人类基因组计划)神经信息学(人类脑计划)生命科学的大数据时代来临要解决当前生命科学的问题,需要从时空状态对生老病死进行解读,这就需要大数据,这种大数据揭示的就是大科学,这种大科学就是人类发展史上最大的产业。生命科学已进入大科学、大数据时代,基因资源是源头。如何去储存这些资源,为未来研究的使用提供基础成为一个关键问题。为了适应更庞大数据存储、处理、分析与应用的要求,深圳华大基因研究院还和国家超算天津中心、深圳超算中心、广州超算中心等机构展开战略性合作。下一步,将通过云计算的模式来组织存储和处理相关数据。2223无所不在的数据(6)网络大数据网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。网络数据是指用户浏览万维网所产生的日志信息,是等待分析和挖掘的信息宝库。横跨于大量不同行业中的企业组织已经把那些来自于网站的详细而又处于客户层面的行为数据源整合入它们自身的企业数据分析环境中。24大数据(BigData)数据不仅在“量”上疯狂的增长着,在“源”上也不断的丰富着。世界上产生的数据,有近80%是由个人用户产生的;据估计,到2020年全球将有500亿个设备连入网络,地理位置、网络浏览行为、健康数据、甚至基因信息等,都成为技术为个体服务的有效资源,这也意味着商家对每一个用户都将有精准的了解,真正做到与客户的“零距离”接触。正是这种巨大的商业利益的驱使,使得大数据成为国际一流企业竞相投入使用的竞争利器。25大数据现象AnEverestSizedOpportunity!26K—M—G—T—P—E—Z—YKKilo1K字节=1,024字节MMeg1M字节=1,048,576字节GGiga1G字节=1,073,741,824字节TTera1T字节=1,099,511,627,776字节PPeta1P字节=1,125,899,906,842,624字节EExa1E字节=1,152,921,504,606,846,976字节ZZetta1Z字节=1,180,591,620,717,411,303,424字节YYotta1Y字节=1208,925,819,614,629,174,706,176字节容量单位:从K到Y数据存储单位及换算关系27产业界与学术界的关注麦肯锡咨询公司“大数据”研究报告“Bigdata:Thenextfrontierforinnovation,competition,andproductivity”—McKinseyGlobalInstitute,May2011.28高德纳(Gartner)研究与顾问咨询公司产业界与学术界的关注Dataarebecomingthenewrawmaterialofbusiness:aneconomicinputalmostonaparwithcapitalandlabor.数据正逐渐变成商业所需的原材料之一:一项几乎和资本或劳力一样重要的经济原料。(Feb.27th,2010)29产业界与学术界的关注20世纪大萧条以来,美国作为世界强国的开放历史,数据技术浪潮的兴起过程,气势磅礴,波澜壮阔。美国政府为什么能,中国到底缺什么?“大数据”之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。302012-7产业界与学术界的关注大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。大数据的核心就是预测。三个转变。更多:不是随机样本,而是全体数据更杂:不是精确性,而是混杂性更好:不是因果关系,而是相关关系312013-1产业界与学术界的关注本书主要介绍了如何驾驭大数据浪潮,并详细地介绍了什么是大数据,大数据为什么重要,以及如何应用大数据。本书还从具体实用的角度,介绍了用于分析和操作大数据的工具、技术和方法;以及人才和企业文化的角度,介绍了如何使分析专家、分析团队以及所需的分析原则更加高效,如何通过分析创新中心使得分析更加有创造力,以及如何改变分析文化。322013-1产业界与学术界的关注爆发:大数据时代预见未来的新思维。巴拉巴西的研究是在人类生活数字化的大数据时代基础上进行的,移动电话、网络以及电子邮件使人类行为变得更加容易量化,将我们的社会变成了一个巨大的数据库。巴拉巴西揭开人类行为背后隐藏的模式“爆发”,提出人类日常行为模式不是随机的,而是具有“爆发性”的。332012-6新信息世界观:物理世界、信息世界、人类社会组成三元世界34大数据共生智能系统中的数据、信息与知识管理组织与社群:人类集体智能——决策与问题求解扩展的计算机网络系统:人工智能——数据加工平台可感知的环境与物品:周遭智能(AmI)——感知与执行终端数据、信息、知识流转共生智能系统:综合集成共同解决现实的复杂问题“大数据”对社会发展的影响科学研究第四种范式公共管理智慧城市工业生产与商业经营大数据产业链与商务智能36第四种范式观察与经验描述与实验、理论建模、仿真与计算等科研模式之后,当代又出现了数据密集型的科研范式。微软公司于2009年10月发布了《TheFourthParadigm:Data-IntensiveScientific》,首次全面地描述了快速兴起的数据密集型科学研究。“TheNextScienceRevolution”,HarvardBusinessReview,November201037《第四范式:数据密集型的科学发现》中文版图书科学正在进入一个崭新的阶段。在信息与网络技术迅速发展的推动下,大量从宏观到微观、从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动,产生出大量科学数据,形成被成为“大数据”(BigData)新的科学基础设施。382012-1039《自然》《科学》大数据专刊402011年2月11日出版的《科学》杂志刊登专题——《数据处理》2008年9月3日出版的《自然》杂志刊登专题——《大数据》公共管理——智慧城市建设愿景“智慧城市”系统体系结构华