非结构化大数据管理系统的设计及其应用案例北京拓尔思信息技术股份有限公司李银松2014.04.10ABOUTTRS•北京拓尔思信息技术股份有限公司是国家规划布局内重点软件企业,公司注册资本2.04亿元,2011年6月在创业板上市,股票代码300229。•公司秉承“搜索信息、整合内容、发现知识”的技术理念,专注于海量非结构化信息处理为核心的软件研发、销售和技术服务,目标是成为大数据时代中国软件和专业互联网服务领域的领导厂商。•公司现有员工650名,总部在北京,并已在全国主要中心城市设立了分公司或办事处。公司自主研发的TRS系列产品和服务已被国内外4000多家企业级机构客户广泛使用,在中国非结构化中文信息智能应用软件市场占有率位居第一。新华社多媒体数据库多语种数据27000家注册用户1.5亿条原创新闻资讯8000多种资源分类PB级数据量26000小时权威原创视频700万张图片全球最大的新闻多媒体数据库新华社多媒体数据库存在的问题•并发量有限•磁盘IO瓶颈•CPU、内存利用率不高•集群扩容工作量大Hadoop的到来HDFSHBase硬件异常当软件异常处理化整为零,分而治之Memstore+WALTRS数据中心建设Hadoop之痛WEBRadar文件服务器GatewayHBaseHDFSGatewayTRSServerTRSClusterTRSSmas用户流程太长运维成本高学习成本高系统可复制性差Hive?Pig?问题排查困难系统复杂TRS海贝(Hybase)大数据管理系统设计思路:让用户像管理数据库一样管理大数据设计目标:–以存储、检索、统计为中心–支持PB级别的–简单易用,架构清晰–伸缩性–高可靠–充分释放现代计算机硬件的潜力(多核、大内存等)–柔性多引擎机制–Hadoop无缝集成基本概念•自动分裂视图数据库数据库子库线性扩展Memory内存索引+WALFileSystemSubIndexFileIndexMemIndexWAL创新的多引擎机制•统一的调用接口•可扩展的引擎接口•跨媒体的支持–全文–图像–音视频架构设计-部署图数据库管理带#的是分裂库,weibo_1自动分裂产生,针对分裂字段的查询可以提高效率数据库检索系统监控异常感知Hybase性能测试运行时间(分钟)平均解析入库速度(GB/h)平均每天完成ZIP文件解析入库大小(GB)记录数60:26:4454GB/h3272GB708881687R910,cpu:6*41.8GHZ,硬盘:SSD盘,内存128GB不同并发检索响应时间(秒)0.1T1T2Tavg90%avg90%avg90%100.0350.0430.2350.3070.5660.654200.0910.0970.4910.6660.7461.1321000.370.8232.2882.6933.7174.355开源贡献•419155JettyClientconnectionsarenotrecoveredafterthethrowsSocketTimeoutException•406390jettyserverCPU100%org.eclipse.jetty.server.HttpConnection.onFillable•401777InputStreamResponseListenerCJKbyte(=128)causeEOF•401962Jettyserversimone.bordetRESOFIXEorg.eclipse.jetty.server.HttpInput.read&&blockForContentdeadlock•402090httpsenderPendingStatecauseuncertaindatasendtoserver•402397InputStreamResponseListenerearlycloseinputStreamcauseholdlock•404204Exceptionfrominputstreamcausehangortimeout•421198onCompletenevercallonCompleteinBufferingResponseListenerin9.1大数据管理平台数据备份大数据管理系统数据存储开发接口基于Hadoop的数据分析CKM文本挖掘与数据挖掘关联规则与序列模式挖掘推荐引擎的离线分析MapReduce数据库监控机器数据搜索引擎用户行为挖掘与推荐引擎基于时间分段的大数据检索与索引接口搜索引擎日志采集监控数据存储层数据分析层日志发送节点Angent1Angent2Angent3……Angentn日志接收集群Collector1Collector2Collector3……CollectornMaster管理集群Master1Master2Mastern日志采集TRS机器数据挖掘引擎基于Hadoop的大数据分析系统文本挖掘服务器机器数据挖掘服务器推荐引擎服务器大数据挖掘分析平台报表分析敏感信息监测用户行为分析挖掘应用日志检索个性化推荐….分布式检索与统计分析服务器中间层CKM任务管理器Hadoop/MapReduce数据分析层TRS大数据管理系统hybaseTRS大数据分析系统以文本挖掘、机器数据挖掘、个性化推荐引擎等作为核心技术,构建于大数据管理系统Hybase和云计算平台Hadoop之上。检索挖掘国家知识产权局专利检索和服务系统自主研发,打破了欧洲专利局和美国国家专利局在专利信息技术领域的长期垄断微博热词分析人物关系挖掘传播链分析金融打击非法集资监测预警平台根据金融管理部门促进金融安全的需求,全方面监测非集网络信息,识别涉嫌非集的机构、关联人、相关团伙案件取证等,通过网络投诉、身份验证、网上传播力、非集特征词命中、收益率偏离等计算非集疑似指数,并进行实时告警,满足“重在预防、打造大小”的管理要求系统架构图Q&Awww.trs.com.cnli.yinsong@trs.com.cn