大数据技术平台解决方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

一、技术方案(一)项目背景1、建设背景媒立方项目分为大数据平台和传播服务平台两部分,通过利用大数据的技术和计算框架,形成基于全网重点内容的数据仓库以及集团用户阅读行为数据库,并在此基础上进一步发展出适应传统媒体和新媒体融合发展的智能大数据服务体系;同时通过整合打通报刊、网站、APP、微博、微信等的采编发布体系,结合智能大数据服务体系,最终形成适应传统媒体和互联网媒体融合发展的内容生产传播服务平台。2、设计目标媒立方项目(大数据平台)由内容资源库、用户阅读行为数据库、智能分析服务系统三个部分构成。本项目要求实现对集团媒体资源、国内重要媒体数据资源和UGC资源的统一整合,运用先进的大数据存储计算能力、自然语言分析以及机器学习等技术,建立一个完整的、专业的、易扩展、易管理、规范的内容资源库系统。系统要求收集集团内容产品线上用户的阅读行为,形成基于集团用户通行证标识体系和基于社会用户的阅读行为数据库。最后基于内容资源库和用户阅读行为数据库形成汇集多种智能分析服务的平台,融合在各类媒体形态的内容创作、发布、传播、评估等环节中,该平台相应的服务功能需同时具备集团媒体业务系统和外部机构用户对象的服务能力。(二)项目需求理解与分析1、总体需求对互联网微博、新闻网站、微信公众号、论坛、数字报刊、移动新闻APP等网站类型进行实时监测,通过系统分析引擎提取互联网网站新闻媒体信息,为新闻、报刊发布提供信息依据。同时采集的互联网大数据可与其他内部系统进行数据调用,整合分析等。2、功能需求2.1互联网大数据采集需求可以按照逻辑关键词的筛选能对微博、新闻网站、微信公众号、论坛、数字报刊、移动新闻APP等不同类型网站按照事件或者新闻类型进行关键词信息抽取,并对不同类型新闻或者舆情数据进行分类管理统计。2.2内容资源库需求能实现对集团媒体生产数据、互联网媒体发布的数据、部分UGC的数据以及相关内容的用户反馈互动数据;经过人工和自动的数据清洗后,形成基于内容可靠性分类、地域分类、舆论场分类这三个维度划分开的内容标签体系;并将在此基础上将内容进行领域划分和主题层次的抽取;能为智能分析服务系统提供数据来源和相关支撑。2.3用户阅读行为数据库需求用户阅读行为数据库通过收集集团旗下媒体的线上用户阅读点击行为(含通行证用户和社会(匿名)用户两类),利用大数据计算引擎结合内容仓库的标签体系进行兴趣标签的快速迭代更新,建立用户阅读行为数据库,形成用户阅读兴趣画像、时序传播画像、媒体影响力画像等模型,为智能分析服务系统提供有力的数据支撑。2.4智能分析服务需求对内容资源库和用户阅读行为数据库数据进行整合分析,以某单位业务为基础,对整合数据进行多角度分析和统计,同时以不同风格的图表进行展示,为媒立方传播服务提供服务,并能提供外部机构用户对接开放API接口服务。2.5系统维护系统具有用户组群、角色、功能模块等权限管理和等级划分,能合理的对系统进行访问控制。3、性能需求1.内部新闻线索(新闻爆料)分钟级别数据同步;2.微信公号、网站、论坛等平均20分钟以内;3.数字报刊60分钟以内;4.新浪微博100万全国重点用户平均15分钟以内;5.省内活跃用户平均60分钟;6.社交媒体官方热点等辅助信息平均15分钟以内;7.数据计算:满足PB级别数据量的离线大数据计算要求;8.内容仓库的访问并发要求:不低于5000用户。9.初期满足350万(250万PCweb和100万APP用户)日活跃线上用户的实时计算分析能力;10.提供PB量级的海量离线大数据和350万日活跃用户智能推荐能力;11.提供不小于5000用户并发访问和计算请求处理能力;提供每日累计百万次的API服务请求能力。4、业务需求4.1数据整合需求具有良好的API接口扩展性,能与其他系统进行数据衔接,能通过现有数据进行数据整合调用。5、其他需求5.1可扩展性需求由于互联网系统具有技术业务更新和发展迅速的特点,系统应具有良好的扩展性,以保证在可预估的数年内系统仍能适应业务需求,扩展性包括信息监测覆盖范围灵活扩展、大数据存储可扩展、应用功能无缝扩展及硬件可平行扩展等扩展性需求。5.2系统安全性需求由于信息技术的飞速发展,各种木马、病毒等严重威胁着信息数据的安全。因此,系统必须支持对机密数据的安全保护,防止机密数据窃取外露,因此系统必须支持对敏感数据进行加密处理,确保数据传输的安全性。在容灾方面,系统需支持数据冗余备份,确保硬件故障后也能在短时间内进行恢复等。5.3高性能及稳定性需求互联网数据监测。往往在舆情事件爆发时更能体现其业务应用价值,将出现新闻数据暴增的情况,在系统性能及稳定性方面,系统需保持良好的运行状态并提供高性能的服务。确保系统能够快速、精准、全面地采集互联网中关于新闻或者舆情事件数据,并对相关信息进行分析,掌握整个事件动态;能够实现对新闻或者舆情事件信息进行跟踪,保障系统的高性能与稳定性运行。(三)平台总体设计1、系统总体架构图:系统总体架构图系统总体设计分为三层:采集层、分析层、呈现。采集层:1.互联网大数据采集:主要对新闻网站、微博、微信、论坛、贴吧、视频网站、新闻客户端等网站的新闻或者舆情事件信息进行采集。并对采集结果数据进行保存,同时以更新存储的方式进行分布式存储。2.大数据分析:对采集互联网大数据进行数据清洗、过滤、抽取、分析、重组等分析和加工。以互联网新闻、微博等自媒体为监测基础,捕获新闻或者重要媒体信息,监测互联网数据。通过数据加工,提取对重要新闻媒体关注的要素,如正文、标题、来源、事件、点击数、转载数等。分析层:1.信息整理:以内容资源库数据为基础,并结合用户阅读行为数据进行综合分析。同时对分析统计数据按照信息数据类型进行分类,如集团媒体生产数据、互联网媒体发布数据、UCG数据、用户信息库等进行分类整合。2.内容资源库:以互联网采集数据和集团媒体生产数据、UGC数据为基础,建立内容资源信息库,并对按照新闻、地域、舆论、门户进行分类。3.阅读行为数据库:通过互联网信息采集技术和信息识别技术对点击数、点击行为人等信息进行采集,从而对用户阅读兴趣、时序传播、媒体影响力进行量化分析。4.智能分析服务:提供来源和领域等多种主题展现方式,并对支持全文检索、信息监控服务、评价服务和推荐服务和管理。呈现层:1.信息服务:为某单位用户提供新闻内容创建、新闻发布、新闻评估、新闻采编、舆情分析、推荐服务。(四)平台整体设计1、系统设计思路互联网技术的发展日新月异,任何技术都不能保证数年之后依然保持领先。为了保证在数年之内依然能适应互联网大数据监测业务需要,采集架构应基于“高频海量数据采集、分布式数据信息处理、数据无缝衔接、无缝扩展升级”的系统架构理念,并具有良好的技术与业务可扩展性,以云计算技术、海量数据处理、大数据聚合提取分析技术等前沿互联网技术为核心,在可预计的业务范围内,可通过系统功能无缝扩展、数据监测范围灵活延展、底层采集分析服务器高可用平行扩展实现业务发展需要。2、整体架构设计图:系统整体架构图从整体架构图看,系统分为硬件支撑层、数据采集层、数据存储层、平台层及应用层。硬件支撑层:包括网络设备、安全设备、存储系统、主机系统,是整个系统的硬件基础。数据采集层:主要负责采集互联网上主流的微信、APP、集团媒体数据、博客、微博、贴吧、论坛、电子报刊数据,并存储原始数据供数据处理和分析使用,采集基于静态IP方式或动态IP方式,不定期访问目标网站通过时间戳,校对信息的更新情况。数据存储层:系统通过分布式采集集群在互联网上通过爬虫抓取的方式采集大情报数据,经过数据加工、清洗、挖掘、分类、自动文摘、语义库管理等工作完成数据预处理,并将数据导入大数据采集数据库。数据存储层是完成统计分析工作的基础。平台层:平台层对整个应用层进行有效支撑,构建了业务环境。良好的业务支撑平台,在系统开发时能够提高开发效率,保证开发质量,在系统使用中又可以保证各项业务的顺利应用,技术含量较高。应用层:为用户呈现数据、操作数据的主要处理层,该层根据SOA和工作门户的思想进行构建,支持用户自定义工作台,将关注互联网大数据和集团媒体信息进行合理的配置和优化。3、应用平台设计整个应用平台由数据采集模型、分布式存储策略、数据清洗技术、数据分析、数据输出等部分构成,应用平台在整个系统中衔接着数据层与应用层,而在后续项目中进行系统重构及二次开发也需要依托现有平台,应用平台的优劣直接影响着整个系统的质量及后续运维状况,应用平台结构如下图所示:图:数据清洗入库分析图数据采集模型:采取爬虫采集方式,在互联网上对信息源采集数据进行增量式采集,通过采集资源策略配置、设定频率、自动去重等方式对数据采集过程进行管理。分布式存储策略:将数据分散存储在多台独立的设备上,打破I/O速度限制,采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,可提高系统的可靠性、可用性和存取效率,还易于扩展。本项目将分布式数据库中的采集数据传输至大数据采集数据库,用户可调用数据进行数据分析。数据清洗技术:大数据采集数据库中的数据是面向各类数据的集合,这些数据从互联网中采集和集团媒体数据整合而来,避免不了有的数据是错误数据、有的数据相互之间有冲突,这就需要利用数据清洗技术过滤那些不符合要求的数据。本项目主要通过无关字段清洗、过滤广告垃圾、时间戳、自动格式转换等方式进行数据清洗,保障数据的可用性。数据分析:通过联机分析处理、数据挖掘等技术,对采集数据和整合数据进行多维度分析,并汇总聚类归纳推理,从中挖掘出潜在规律。对于数据分析的结果可以通过可视化的手段进行展示,用户可以通过数据分析功能得到需要的各种统计报表。数据输出:系统可将用户需要的数据按照特定规则进行输出,可以利用接口将各类媒体数据进行整合分析输出,也可以利用嵌入式技术,在大数据平台中开辟专栏展示分析数据。4、系统采集架构设计原则1.1安全性系统运行安全稳定,保证7X24小时运转正常。在系统的使用过程中确保操作与访问在合理的授权机制下进行;在数据的交换过程中保证数据不被窃取和篡改;在系统的出错时,保证数据的完整性和一致性;采用冗余机制建立备份系统,在系统出现故障时能不间断运行。信息传输做到防止截获、篡改,采取以下措施:系统软件保证传输安全所运用的技术有:外部数据传输进来机房时,通过边界防火墙进行严格的访问控制,策略上指定传输端的固定IP,固定端口,另外可通过与传输端的边界防火墙联动,将传输通道进行IPSEC加密传输,保证此条专用通道的传输安全性。WEB安全的防护:通过部署IPS、WEB防火墙、防DDOS攻击等产品,全方位保护WEB服务器的安全,防止网页挂马、SQL注入、XSS、跨站伪造(CSRF)、cookie篡改等攻击,以及应用层DDoS攻击。在防火墙上进行配置,将整个系统放在高安全级别的DMZ区,只有允许的http、https等合法请求通过,拒绝所有其他非对外的服务请求。服务器自身安全的防护:全面扫描服务器的漏洞情况,并及时打好所有补丁,对进入服务器的口令进行严格配置,防止弱口令。4.2可用性系统运作方式采用多任务并行处理方式,对任务和资源占用为高频率的数据解析读入和复杂数据进行查询,在通过任务调度器对CPU资源进行高效多线程任务并发处理。能满足同时上千用户同时访问使用。此外,系统对数据采用三重冗余的设计方式,为系统数据提供高可用性能需求,确保系统7×24小时不间断工作。4.3先进性系统架构针对互联网大情报所要求的搜索深度深、采集精度高和抓取速度快等要求,邦富进行了专门的优化,采用了分布式多线程并发指令执行体系结构、增量实时索引、智能分词等多项先进技术,采集和数据管理效率非常高,管理员可以灵活设置更新周期。客户端采用可视化的配置工具,灵活配置应用属性页的抓取信息,用中低端硬件可达到理想的采集效果。4.4高可用性系统运作方式采用多任务并行处理方式,对任务和资源占用为高频率的数据解析读入和复杂数据进行查询,在通过任务调度器对CPU资源进行高效多线程任务并发处理。能满足同时几百用户同时访问使用。此外,系统对数据采用三重

1 / 58
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功