大数据及其在税务中的应用2016.10安徽工程大学计算机与信息学院主要内容第一章大数据的概念与技术第二章大数据带来的机遇与挑战第三章大数据在税务中的应用大数据的概念与技术第一章大数据面面观大数据特征大数据技术3一段小视频4大数据的概念与技术第一章大数据面面观大数据特征大数据技术5数据爆炸式增长(每分钟……)6GBTBPBEBZB数据的爆炸式增长想驾驭这庞大的数据,我们必须了解”大数据”地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB(拍字节)=2^50字节1EB(艾字节)=2^60字节1ZB(泽字节)=2^70字节7一段小视频大数据名称由来大数据的来源看待大数据的不同视角大数据的定义大数据的市场分析大数据与国家战略大数据带来的变革820世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来2011年6月,美国咨询界的翘楚麦肯锡咨询公司发布了《大数据:下一个竞争、创新和生产力的前沿领域》的研究报告,首次向学界以外的领域推出大数据的概念。9可采集可衡量价值人的行为活动生理行为自然属性社会属性交易行为文化行为信仰行为个体行为家庭行为群体行为……企业经营活动研发服务营销推广物流采购生产销售……交易活动交互活动多样性相关性PC互联网移动互联网物联网数据获取通道大数据的来源“看”数据的不同方式可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看的战情数位仪表板,其实是残缺的…11结构化数据半结构化数据非结构化数据大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。大数据的构成10万GB10万TB需要更高性价比的数据计算与储存方式数据库数据仓库计算更快存储更省14大数据=海量数据+复杂类型数据增长如此之块,以至于难以使用现有的数据库管理工具来驾驭,困难在于数据的获取、存贮、搜索、共享、分析和可视化等方面大数据的定义数据量复杂性:种类和速度销量库存薪酬表客户信息合约ERP/CRMWEB2.0广告博客搜索营销文本/图像网络日志大数据社会情绪音频/视频传感器RFID维基/博客微博金融信息个人数据位置信息政府信息气象数据保险信息EBPBTBGB维基的大数据定义任何超过一台计算机处理能力的庞大数据量亚马逊的大数据定义需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产Informatica的大数据定义大数据=交易数据+互动数据+观测数据中国电信的大数据定义百度的大数据定义如果自然界中的事件完全不可预测地随机发生,人们的生活将无法忍受;与此相反,如果每一件事情都是确定的、完全可以预测的,则生活将是无趣的。利用因果关系解释观测的现象或预测未来存在逻辑和实际上的困难。对大数据的理性认知[美]C.R劳与传统比较,大数据的分析处理的核心是预测和推断,根本的变革在于不刻意追求因果关系,而更多关注相关关系。也就是说,只要知道和什么有关,而不必强求为什么有关。[英]舍恩伯格大数据时代来临,使人类第一次有机会和条件在非常多和非常深入的层次获得和使用全面数据、完整数据和系统数据,简而言之就是样本=总体。[英]舍恩伯格大数据为政府统计提供了总体性、非结构化、丰富真实的原始资料,可以极大地缩短数据采集时间,减少报表填报任务,减轻调查对象负担,提高统计数据质量。国家统计局马建堂大数据,也叫全局数据、总体数据,数据量越大其预测和推断的准确性越高大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。中央政府对大数据的重视程度习近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克强经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋数据为王,财政工作离不开大数据18大数据上升为国家战略国家时间政策备注美国2012-03-29《大数据研究与发展计划》推动政府开放、提升政策预见性(粮食、天气、流感等)、提高政府服务水平、降底运营开支英国2010-05数据权、我的数据日本2012-05ICT战略中国2012-05互联网大数据技术创新研究大数据的概念与技术第一章大数据面面观大数据特征大数据技术20大数据的4V特征Value•大量的不相关信息•对未来趋势与模式的可预测分析•深度复杂分析(机器学习、人工智能Vs传统商务智能)BigData大数据Volume•全球在2010年正式进入ZB时代•IDC预计到2020年,全球将总共拥有35ZB的数据量TBPBEBVelocity•实时分析而非批量式分析•数据输入、处理与丢弃•立竿见影而非事后见效StreamsRealtimeNeartimeBatchVariety•大数据的异构和多样性•很多不同形式(文本、图像、视频、机器数据)•无模式或者模式不明显•不连贯的语法或句义StructuredUnstructuredSemi-structuredAlltheabove21大数据的4V特征(Volume)1Byte1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和22SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog半结构化/非结构化数据大数据的4V特征(Variety)23大数据的4V特征(Variety)24大数据的4V特征(Velocity)•实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;•1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;25大数据的4V特征(Value)•挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息•价值密度低,是大数据的一个典型特征大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体26大数据带来的思维变革(更多)27大数据带来的思维变革(更杂)从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性。−IBM的机器翻译VSGoogle的机器翻译−大数据时代要求我们重新审视数据精确性的优略−大数据不仅让我们不再期待精确性,也让我们无法实现精确性−错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在28大数据带来的思维变革(更好)佛教《三世因果经》主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。佛教关于因果报应的解释原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;29大数据带来的思维变革30大数据的概念与技术第一章大数据面面观大数据特征大数据技术31一段小视频云计算与大数据大数据涉及的关键技术大数据处理与分析Hadoop生态系统传统数据库与大数据32待处理的数据数据规模大(以GB、TB、PB为处理单位)小(以MB为处理单位)数据类型繁多(结构化、半结构化、非结构化)单一(结构化为主)模式和数据的关系先有数据后有模式,模式随数据增多演变先有模式后有数据(先有池塘后有鱼)处理对象“鱼”通过某些鱼判断其他鱼是否存在数据(池塘中的鱼)数据库(池塘捕鱼)大数据(大海捕鱼)大数据涉及的关键技术需求技术描述海量数据存储技术Hadoop,x86/MPP,MapReduce分布式文件系统实时数据处理技术StreamingData流计算引擎数据高速传输技术InfiniBand服务器/存储间高速通信搜索技术EnterpriseSearch文本检索、智能搜索、实时搜索数据分析技术TextAnalyticsEngine自然语言处理、文本情感分析、VisualDataModeling机器学习、聚类关联、数据模型数据采集数据储存数据管理数据分析与挖掘34▪基于SQL语言:面对OLAP的传统行和列▪不基于SQL或map-reduce的:由谷歌率先发起▪数据流:基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不同范围的服务▪传统交付模式-单片或基于设备的解决方案▪云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-ForresteranalystJimKobielus新的传输方案大数据涉及的关键技术35大数据处理技术特征数据无限分而治之功能有限复制分发大数据的分析模型•研究对象•由组织、用户、大数据和工具构成的运行系统•研究内容•大数据的构成•大数据的行为•大数据的行为和数据的组织•研究方法•知识工程解构大数据系统•研发工程支撑大数据系统•价值工程牵引大数据系统•研究目标•大数据生产平台•大数据开发平台•大数据采集平台•大数据应用平台•研究重点•数据分而治之•资源组织调度•逻辑复制迁移组织大数据用户工具知识工程研发工程价值工程社会价值结构功能信源信宿信道控制状态协同生产采集存储应用传递展现概念定议划分经济价值科技价值商业价值为什么是什么怎么做云计算与大数据大数据应用运行在云平台之上如果数据是财富,那么大数据就是宝藏;云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的存储和积淀,云计算也只能是杀鸡用的宰牛刀!38什么是云计算(一段小视频)Hadoop平台Hadoop是基于Google有关大数据的论文的开源项目,最初的框架由DougCutting在2005年提出,目前是由Apache维护的开源项目。从初创到现在,Hadoop体系在10多年中开发完成了一系列重要的子项目,已经形成一个涵