海量非结构化数据处理技术在运营管理中的运用大数据很有价值,但数据获取很关键目录2银行数据全生命周期管理探讨1海量非结构化数据特点及使用2规划、设计、线上、近线、离线、下线、调阅、销毁?结构化数据是哪些,非结构化数据是哪些,如何获取?海量非结构化数据技术要点与实现3银行数据全生命周期管理-系统数据、业务数据设计阶段落实数据管理:投产前明确数据管控手段:生产数据管理备份与归档:历史数据调用分析使用:提出应用系统数据管理规范定义应用系统数据管理协议明确不同类型数据的管控手段定义控制维护使用明确各类数据的特性确定各类数据的存在环境系统及业务数据的采集方式设计各类数据的备份与恢复生产数据性能及容量管理生产数据的备份与归档数据在线、近线、下线管理备份数据有效性验证与管理系统数据监控与分析业务数据的调用与登记业务数据的翻新与备份3银行数据全生命周期管理目标数据规划数据生产数据管理数据使用-数据特性识别-使用规划设计-备份需求确认-使用周期确定-技术手段落实-生产状态监控-运行趋势分析-整体容量管理-历史数据调阅-运营情况分析-业务创新支持数据管理-在线生产数据监控采集-近线查询数据归档处理-离线归档数据备份分析-数据分析结果综合运用-数据采集管理-数据加工处理-备份计划管理-备份操作执行-介质归档管理-备份周期管理科技服务之一:结构化/非结构化数据的全生命周期管理与使用4数据管理如何实现哪些是结构化数据哪些是非结构化数据银行各类数据的产生、分布、状态、用途.......基础运行产生技术相关数据业务执行产生动态与静态数据信息操作安全账务银行单笔业务的执行,引起整体架构各层面产生各类关联性数据审计安全事故故障单接入网络服务器存储规范发展变更管理虚拟化安全应用分析哪里存在数据、什么形式、特征如何、如何管理、如何使用应用系统数据管理协议、日志输出标准化........有效运用各类数据的基础是对其进行全程管理与控制7业务标识设计:为业务全程分析埋下“线索”、染色请求:请求发起端,超时、成功率连接网络转发、动态分配,后端状态转换快速转接、转换,是否有堵塞服务业务服务原子交易,速度、可靠短连接:资源共用、容量大、连接耗时,关注异常波动长连接:资源专用、效率高,关注超时及挂起状态系统间会话业务流程单系统交易业务标识:可用于故障定位、容量系数、业务分析.......89银行数据生命周期管理:从源头控制与实施日志标准化日志分类:应用系统,应将交易流水日志、系统debug日志,系统报错日志日志分级:各类日志应设置级别控制,通过动态开关,控制日志写出的粒度日志格式:各类应用日志,尤其是系统报错日志,应遵守统一的格式要求日志传输:日志写出并传输的方式,应采用全行统一的传输方式交易报文标准化统一交易标识:全行统一的交易标识,在多系统中传输,便于监控和故障诊断报文加密策略:对中间件、应用服务器的报文加密进行统一规定数据管理基础:结构化/非结构化数据可采集、可加工、可分析利用9数据管理如何实现哪些是结构化数据哪些是非结构化数据ACompositeWebApplication,InvolvingJ2EE,IntegrationMiddlewareandLegacySystems系统名称是否含有下列内容交易流水表交易代码交易日期交易时间交易状态分类统计图形化前端管理系统(GTS)有有有有有分行号理财产品销售系统(FUND)有有有有有有电子支付平台(EPAY)有有有有有无外汇买卖系统(EXCH)有有有有有无动态口令集中认证管理平台(OPT)有有有有有渠道现金管理系统(CaMS)有有有有有有手机银行(CEMB)有有有有有登录方式短信平台系统(MSG)有有在同一字段内有运营商贵金属交易系统(GOLD)有有有有有无核心业务系统(ECAS)有有有有有业务种类Call-Center系统(CCS)有有有有有交易种类总行大前置系统(EBIP)前置二期监控实施中总行中间业务平台(EBMP)有有有有有无新网络银行系统(NBANK)有有有有有交易渠道基金托管系统(FTS)有有有有有有第三方存管系统(IFTS)有有有有有交易渠道企业年金系统(EPAMS)有有有有改造后有交易渠道客户信息统一管理系统(ECIF)有有有有有无信贷风险流程管理系统(CECM)有有有无有无市场风险管理系统(SUMMIT)有有有有有无系统资源层总前生产主机总前服务PbMainFuncWEB页面显示WEB前台应用监控Web端后台数据库交易数据总前应用层PbInsertDBLog模块(渠道、业务种类)总前平台层数据库复制总前数据库数据库服务器后台监控程序(数据分析)监控后台报警程序报警日志错误日志结构化数据及其采集使用:交易流水......数据管理如何实现哪些是结构化数据哪些是非结构化数据非结构化数据:运行产生的各类日志【静态】运行过程中产生的各类日志为非结构化特性数据输入•日志的结构化程度很低•日志的字段标示等非标准化•跨日志关联性高,但搜索线索难以自动化•日志生成的形式多种多样(文件名不定)•难以采集、归档、查询•非标准日志难以定期清理•难以保证日志的完整性•难以做上下文关联分析网络端口•监听所有端口•TCP/UDP•syslog,SNMP,IMAP,POP3,JMS计算机文件•监测运行的文件•批量上传文件•网络,应用,服务器和设备日志自定义脚本与APIs•可设定测试•WMI,perfmon,AD,LDAP,SQL/DBI,OPSEC,LEA,JMX,VMware,Powershell文件系统•监测系统的变化•配置•密码文件•关键性脚本与代码13XX系统应用协议分析:–WTC+SOP是基本结构,SOP内还封装其他协议–封装XML、封装~|~分隔的key-valuepair非结构化数据:运行产生的网络报文【动态】生产环境中的各类数据的关联性、多样性、复杂性•短会话连接情况(标准输出)•网络报文•系统日志(SYSLOG)•WEB-SERVER日志(文本/XML)•用户打开页面详细记录(文本)•系统日志(SYSLOG)•中间件日志(文本,每台服务器每个服务一个)•交易日志(group文件,每台服务器50个)•程序报错日志(XML)•系统日志(SYSLOG)•数据库日志(多个文本)•系统日志(SYSLOG)数据库表系统间会话网络报文、交易报文、文本日志、数据库流水目录16银行数据全生命周期管理探讨1海量非结构化数据特点及使用2动态数据、静态数据、结构化、非结构化、多层分布、逻辑相关运行监控、趋势分析、容量管理、数据归档、查询统计、运营分析海量非结构化数据技术要点与实现3数据分类及采集日志类采集及使用报文类采集及使用根据不同类型数据的特点,采取不同的技术手段利用Hadoop、Storm等主流大数据技术,采集归档并分析海量非结构化日志,可完成跨层面跨节点的多维度查询与分析;网络报文为动态瞬时存在数据,采集、解读、处理难度大,但数据为强客观性,分析与利用价值高;利用GoldenGate等数据库同步技术采集结构化数据,实现离线状态下实时交易性能分析;离线交易流水监控预警运营分析业务支持18网络交易报文采集交易协议标准、规范协议非加密网络镜像流量获取方便网络节点间交易监控应用交易日志采集交易日志保存在文本文件中日志格式标准、规范对交易日志有归档查询、故障诊断分析的需求交易流水镜像采集交易流水内容丰富交易流水信息保存在数据库中交易流水表以Inset操作为主采集方式适用场景根据不同类型数据的特点,采取不同的技术手段19数据分类及采集日志类采集及使用报文类采集及使用日志类数据采集:生产日志分析与监控的需求日志类数据采集:日志关键字分析使用样例日志类数据采集:非结构数据结构化的使用数据分类及采集日志类采集及使用报文类采集及使用25网络交换机流量交换机探针监控服务器将流量通过网络交换机镜像端口镜像到流量交换机流量过滤,报文拆分不影响网络运行将二进制流转换为可读的Pcap包按照通讯协议和报文格式解包网络交易报文采集分析实现原理25通过网络报文分析、提前预警故障隐患前置-Connex上海前置-connex北京26通过网络报文分析、观察关键业务会话状态业务分析、创新支持数据归档、查询服务运行采集、容量管理估值预警、隐患分析综合监控、聚焦定位综合采集使用日志+报文+数据库28运行状态综合展现:观测发现、聚焦定位、诊断分析服务台视图告警中心视图告警大屏视图交易视图应用关联性视图交易详情视图交易路径视图资源使用视图告警热度图会话性能视图一线视图二线视图通过各种视图有效运用,能够把监控系统采集到的各类数据,展示给不同角色的用户,在日常运维、重保值守,故障影响分析、故障定向定位等方面发挥重要作用。29系统容量数据采集:系统数据、应用数据、交易数据31历史数据综合查询:海量归档、转结构化、多维查询32业务运行状态分析:业务类型分布、业务类型趋势用户行为分析:操作行为、过程行为、结果选择目录34银行数据全生命周期管理探讨1海量非结构化数据特点及使用2采集与传输、归档与处理、查询与统计、分析与展现、集成与运用采集的复杂性、传输的可靠性、处理的高效性、结构化能力..........海量非结构化数据技术要点与实现335类型采集方式日志来源管理目标归档周期过期处理备注syslogsyslogTCPsyslogUDP网络采集,查询,归档6个月销毁记录采集时间,日志发生时间。加工采集数据。防火墙webServerAPP服务器DBServerOracle-tracetailDB采集,查询,归档,实时监控6个月销毁文本tailwebServer采集,查询,归档,实时监控12个月留存中间件应用日志性能tailOVO采集,查询,实时监控1个月销毁ITM事件tailOMNIBUS采集,查询,实时监控,归档6个月销毁资产tail交易流水采集,查询,实时监控,归档12个月留存统一监控平台网络报文tailBPC采集,查询,实时监控,归档6个月销毁WRT技术要点与实现架构:明确数据对象、设计技术手段日志类采集技术要点网络报文采集技术要点数据整体管理与展现采集与传输:采集:根据业务、运维、监控、审计的需要,能够按照关联性、完整性、统计性等要求,采集各技术层面、各类生产环境、各中类型的生产日志;传输:能够将采集到的各类日志,按照要求(是否可丢失),安全、稳定、可靠的进行传输,传送到日志采集服务器;归档与查询:归档:将采集到的各类日志,按照系统、模块、节点等架构规则,采集时间、保存周期等周期规则,业务、系统等属性规则,进行多维度归档与备份;查询:按照归档的多维度属性,能够进行跨系统、跨节点、跨文件综合查询;分析与使用:分析:针对非结构化数据,能够完成各类逻辑分析(如:周期内同一事件的发生次数、比例等)使用:根据分析规则,能够产生各类、各级报警信息,并集成到监控系统,提供业务运行状态实时数据及分析结果,提供业务运行特征分析结果;日志类数据采集关键技术要点虚拟设备VS管道程序开发和移植方面:管道兼容普通LINUX及类UNIX系统,而设备方式除了linux通用外,每一个UNIX都是一套新的设备程序。日志采集能力方面:设备方式可以采集任何写入文件的日志,而管道方式只能采集”a+”(无文件则创建,有文件则追加)文件。日志采集范围方面:设备方式是一个设备可以采集该操作系统上所有应用日志,而管道方式,每多一个日志文件,必须对应多增加一个进程或线程来采集。在不修改应用系统的情况下,采集各类日志:固定文件名、时间变量文件、名称变量、路径变化、目录下新增日志................38虚拟设备日志采集方式开始记录日志系统VFS日志文件设备控制信息拦截write日志输出设置拦截路径开启/关闭采集应用虚拟设备配置控制程序拦截syslog控制其他相关设置管道程序采集日志方式开始打开日志文件(管道文件)写入日志(管道文件)建立日志文件(管道文件)读取日志文件(管道文件)日志输出应用管道