大数据360整合营销解决方案与新华人寿交流大数据时代里的行业应用惠普大数据方案介绍于向东EG-TS-BigdataMobile:13301132890Mail:xiang-dong.yu@hp.com概要一、大数据时代的五个小故事1、连续零申报且购发票2、基于动线的数据应用、内容管理3、税务门户及税企交流4、稽查选案、纳税评估5、计算资源的纠结二、惠普从两个方面诠释大数据1、惠普面对大数据的理解2、惠普应对大数据的平台三、小结大数据的流程三个应用产品故事1:统计连续零申报且购票题目•连续零申报(应纳税额、销售收入、进项、销项),且购买发票困难•业务人员即时输入条件查询设计•字符串1100011110000半夜架构•查询时,根据查询条件截位比较。效果•3分钟大数据时代的解决办法解决连续性以及忽盈忽亏问题关于连续n次零申报,或忽盈忽亏等问题,可以EventSeriesPatternMatching功能来解决。EventSeriesPatternMatching,根据一系列事件组成的模式匹配符合模式的记录,可用于客户行为模式分析、市场营销、外部站点优化等SELECT*FROM申报表MATCH(PARTITIONBY纳税人识别号ORDERBY申报日期DEFINE零申报AS申报应纳税额=0PATTERNPAS(零申报零申报零申报…)/*连续n次零申报,就连续写n个’零申报’字符串*/RESULTSALLROWS);决策支持故事2:基于体验路径的数据应用、内容管理领导查询局长查询税管员操作平台税源监控统计分析税源预警数据利用历史库查询一户式一局式一案式风险评估OA税收档案•大数据平台•智能搜索•挖掘预测应用定位•全程智能推送,将检索、分析、挖掘集成在操作路径上•以鼠标操作为中心、将外网模式搬进业务操作•大量图表实现可视化操作特性•基于人类语言的概念搜索•海量数据的分析挖掘•分布式并行计算技术特性大数据时代的另类思考-一搜通搜组合搜索更多功能税务一搜通一搜在手中,税务信息时时通自然人纳税人税务干部税务机构协作机构昆明曲靖玉溪丽江税登业务发票业务行政许可申报纳税一般申报代收代扣延期申报关联企业核心系统防伪税控金税稽核出口退税业务导航主题导航税收法制流转税所得税征管计会统稽查国际税收张山定期定额走逃风险热点透视代开3%增值税汇算清缴出口退税大数据时代的另类思考-一搜通公司人数纳税额注册地基本信息申报信息发票信息纳税人推荐信用等级低走逃风险户逾期未申报20105标签过滤1-100101-100050-5555-60昆明曲靖结果列表图谱姓名身份证号码状态张山111111111111正常张山峰123444444444正常近期动态近期动态重点情况重点情况收藏分享发送报告关联分析对比分析现状分析发展分析关联企业企业法人企业会计图存分析涉税行为社交媒体税企交流大数据时代的另类思考-一搜通税收档案税收档案开发时:用户体验,UI设计,N版个性门户,换肤测评时:,用软件访问提高访问量,发动大家投票风险管控的一部分故事3:税务门户及税企交流领导的要求是什么?国税局的特色是什么?服务对象的需要是什么?测评的重点是什么?大数据时代的用户体验模式匹配与网站内容优化4种类型事件:主页,注册,目标,以及其他目的:分析用户如何到达目标界面。分析案例:•Q:对以上类型网页进行PMD(模式匹配发现)查询•A:非常用模式:Homepage-Register-Goal•Q:另一PMD查询:HomePage-?-Register-Goal•A:80%的时间是通过Anna所写的白皮书所在网页!•行动:让Anna给我们写更多的白皮书SELECTuid,sid,ts,refurl,pageurl,action,event_name(),pattern_id(),match_id()FROMclickstream_logMATCH(PARTITIONBYuid,sidORDERBYtsDEFINEEntryASRefURLNOTILIKE'%some_company.com%'ANDPageURLILIKE'%some_company.com%',OnsiteASPageURLILIKE'%some_company.com%'ANDAction='V',PurchaseASPageURLILIKE'%some_company.com%'ANDAction=‘P'PATTERNPAS(EntryOnsite*Purchase)RESULTSALLROWS);大数据时代的企业关注舆情监测关怀抓取社交媒体涉税热点发现纳税人关注点纳税评估、稽查选案平均税负率为核心同行业、同规模简单加权风控的昨天筛选评估对象异常分析评估问题处理税源管理数据设立指标及阀值闭环反馈通用分析指标收入类评估成本类评估费用类评估利润类评估资产类评估税种特定分析指标税负分析弹性分析职能为基础核心是管理故事4:大家耳熟能详的评估、选案风控的今天流程为基础核心是服务税源专业化管理/风险管控TOGAF/FEABRM/DRM/SRM流程梳理再造流程导向/依申请依职权/流程清册梳理环节风险点纳税人、税干、第三方设计风险指标设计应对策略纳税人涉税数据级别、分类、信用等级分级分类管理岗位设置BRM/DRM/SRM风险业务平台实现有限征管资源的最大化效益纵向互动/横向联动/内外协作税源专业化管理体系管理对象/方式/岗位专业化集中受理、调查、审批走进一扇门/来到一扇窗/办完一切事报表与可视化工具Vertica实时分析加速平台Hadoop非结构化存储Idol非结构化分类编目管理工具整合库内分析(SQL,R&KXEN)大数据加载结构化数据ArcsightLogger各种传感器、机器与系统日志分析挖掘税收风控的未来?数据为基础核心是?税务数据第三方数据机器学习智能推送情报挖掘大数据时代的风控模型SAS,SPSS?设计思路采集整理购买人寿保险产品的客户自然属性、索赔信息、既往正常及欺诈标识。利用机器学习建立欺诈判别模型,在此基础上进行风控。主要技术实时列式数据库vertica、r语言、J2EE门户数据客户表、产品销售主题表、索赔信息表功能样本数据采集性别、年龄、教育水平、血型、星座、喜好、地域、健康程度、身高、体重、示例、既往病史、产品种类、索赔明细、索赔识别。特征变量筛选去除多余的变量数学模型:随机森林方法R语言缺失数据补正清洗缺失项过大数据,补正少量数据数学模型:中位数、众数自写函数机器学习模型决策树模型。风控提示输入客户索赔明细,系统自动评估欺诈概率。风控大数据时代的风控案例推荐可以对应税收专题分析,纳税人自动分类©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.数据增长数据量1234不活跃或过期数据活跃的运行数据年份•海量数据库中90%的非活跃或历史数据消耗80%的资源,拖累70%的系统性能和可用性•合规性要求数据长期保留进一步恶化运行环境,给数据管理和业务优化带来挑战性能可用性稳定性故事5:计算资源的纠结•传统方法:西医治标-不停买马,增加马力(升级扩容、升级扩容、再升级扩容)-成本:无休止的买马支出成本(CPU,Storage,OracleLicense);养马成本(维护费用,人力成本,Oracle调优)-风险:高水位运营加大宕机可能性;备份恢复窗口延长•根本解决之道:中医治本-百病之源–肥胖数据膨胀;药方-瘦身,数据归档-数据生命周期管理ILM大数据时代的别样方法国税总局采购了八个点HPApplicationInformationOptimizer应用服务器/控制台配置管理策略管理任务引擎/计划任务数据迁移任务监控归档访问引擎AIO服务器平台DataMovementProcessDataMovementProcess源数据库•Oracle•MSSQLServer•Sybase•DB2•JDBCCompliant•MainframeDatabases•ObscureDatabases•Files•超过300数据源支持•…AccessCloud目标数据(压缩)•Database(s)•Files-XML&CSV-(NAS,SAN,etc)•RecordsManagement•Vertica•ACA(ComplianceArchive)•CAS(ContentAddressableStorage)•Cloud(HP,Amazon,etc)丢弃SubsetsIDOL10大数据时代的别样方法概要一、大数据时代的五个小故事1、连续零申报且购发票2、基于体验路径的数据应用3、税务门户及税企交流4、稽查选案、纳税评估5、计算资源的纠结二、惠普从两个方面诠释大数据1、惠普面对大数据的理解2、惠普应对大数据的平台三、小结大数据的流程三个应用产品大数据概览-起因计算机时代互联网时代PC时代算盘时代海量数据电商社交智能手机RFID机器数据是数据增长的主要贡献者–其预期到2020年会有15倍的增长(占整个数据量的40%)202040ZBIDC修正其预计2020年数据量会到40ZB而之前其预计为5ZB20052010201220158.5ZB2.8ZB1.2ZB0.1ZB到2020年中国产生的数据比例会占到全世界的22%U.S.32%WesternEurope19%China13%India4%restoftheworld32%22%by202040%by2020当前数据分布大数据概览-趋势KB、MB、GB、TB、PB、EB、ZB、YB、NB、DB、CB、BB海量数据存储问题海量数据高并发读写IO问题海量数据数据挖掘问题海量数据高可扩展性和高可用性问题大数据概览-技术挑战概要一、大数据时代的五个小故事1、连续零申报且购发票2、基于体验路径的数据应用3、税务门户及税企交流4、稽查选案、纳税评估5、计算资源的纠结二、惠普从两个方面诠释大数据1、惠普面对大数据的理解2、惠普应对大数据的平台三、小结大数据的流程三个应用产品惠普大数据平台-havenHAVEnSocialmediaIT/OTImagesAudioVideoTransactionaldataMobileSearchengineEmailTexts分布式数据存储Hadoop/HDFS处理和索引所有信息AutonomyIDOL极速分析与实时扩展Vertica收集并标准化机器数据EnterpriseSecurity-Arcsight与第三方应用的集成nAppsDocumentshp.com/haven基础设施安全设备服务器和虚拟化软件存储软件定义的网络高可用性和高扩展能力高性能的实时加载和实时分析能力多种数据结构支持大数据分析与开放平台•高压缩比•支持多种压缩算法•支持列压缩模式•支持按列进行压缩算法的控制•内嵌数据的高可用性与冗余机制•随节点增加,性能线性增长•轻松配置几百甚至上千节点、管理PB级数据量•基于廉价的x86平台•快速的高并发的数据加载•加载同时进行高效的实时分析•复杂查询与分析的高性能•支持多种数据结构:结构化、半结构化与非结构化的分析•支持加载与分析各种业内标准结构的数据:JSON、XML、各种分割文本等•支持丰富的大数据分析函数•支持分布式R、Python等流行分析工具•支持用户自定义函数框架•支持与Hadoop的结合数据压缩能力HAVEn-关键技术·技术性能非结构化信息库数据库邮件服务器CRM/ERP/BILDAP400+连接器大数据&分析搜索&协作信息监管用户体验管理营销优化社交媒体视频音讯邮件文本移动事务数据文檔IT/OT搜索引擎图片AutonomyHAVEn-采集器MapReduce分布并行计算引擎Hbase分布式数据库HDFS分布式文件系统Zookeeper分布式协作服务HadoopCommonHAVEn-hadoophadoophbasehiverhiveRJ2EEPORTALAJAX/H