日志管理解决方案的测试和评估作者:valen出处:IT专家网2010-08-2510:24日志管理是所有企业都应该部署的技术,但却只有很少的企业部署了良好的日志管理。收集和分析计算机和设备日志在很多方面都发挥着重要作用,包括信息安全、操作管理、应用程序监控、系统故障排除和合规审计等,良好的日志管理解决方案能帮助加强企业安全。安全审计应该是很多企业调查日志管理工具的首要原因。Verizon公司的“2008年数据泄漏调查报告”(该报告正迅速成为计算机犯罪统计数据的最可靠资源)显示“82%的数据泄漏事故在实际事故发生前就能找到蛛丝马迹,不管具体使用的是何种类型的事件监控,结果都相同:关于数据泄漏攻击的信息并没有被通知或者采取行动”。本文对七种不同的日志管理硬件和软件解决方案进行了分析,包括ArcSightLogger4.0、GFIEventsManagerv.8.2、LogLogicMX3020v.4.9.1、LogRhythmLR2000-XMv.5.0、NitroSecurityNitroViewESMandELMv.8.4、Splunk4.1.2和TrustwaveSIEM。此次产品评估和分析的目的在于让大家了解日志管理的特性和功能,包括什么功能可以区分不同解决方案。我们根据相同评估标准来为每个产品评分(1到10分,10分为最高分),这些产品都是互不相同的,属于不同产品类别。举例来说,ArcSight的单设备Logger属于严格意义上的日志管理解决方案,因而缺少NitroSecurity的双设备SIEM(安全信息和事件管理)解决方案的很多功能。本文的产品评估仅仅侧重于日志管理功能,并且产品评分表也只反映其日志管理功能。当然,从给定价格的角度来看,解决方案提供更多的功能绝对是好事。本文评估的产品特性和功能与收集、存储和审查企业可能需要密切关注的各种类型事件日志有关。虽然你不需要了解日志管理完整的详尽的原理信息,但你需要记住日志管理生命周期的几个阶段:政策定义、配置、收集、规范化、索引、存储、相关性、基线、警报和报告。此次测试是在一个小型实验室进行的,包括15到20台计算机(包括物理和虚拟的),模拟Windows、Linux、BSD、路由器和无线客户端的小型企业网络。有些功能是当产品在大型真正的生产网络或者供应商传教的远程实验室运行时来测试的。测试评分表40%20%20%20%ArcSightLogger4.0108899.0优秀40%20%20%20%GFIEventsManager8.278887.6良好40%20%20%20%LogLogicMX3020(版本4.9.1)89888.2很好40%20%20%20%LogRhythmLR2000-XM(版本5.0)99999.0优秀40%20%20%20%NitroSecurityNitroViewESM5750andELM2250108999.2优秀40%20%20%20%Splunk4.1.288898.2很好40%20%20%20%TrustwaveSIEM89888.2很好在本文的测试中,并没有测试供应商性能或者压缩报告,这两者通常都被夸大。有些供应商感到很遗憾,因为他们所声称的最大竞争优势是迅速处理大量数据。我们建议在购买任何日志管理产品前,测试真实性能,我们看到过很多日志管理产品在处理几百台机器时游刃有余,而处理几千台机器时则慢如蜗牛。所有这些测试的产品都很不错,能够有效部署在任何企业网络中。测试的产品中,没有一个产品不能提供值,当然有些产品能提供更多值。每个测试的产品都有无数有用的功能,并且完全可以胜任生产环境的日志管理工作。此次评估的最主要目的是为了突出每个产品独特的功能,这样大家可以决定选择哪款日志管理产品来帮助实现生产环境的有效日志管理。日志管理评估指南本节将讨论的是每个日志管理产品提供的各种功能,并提供评估其他任何日志管理解决方案的标准。首先需要作出的决定就是是否选择使用“包罗万象”的设备或者软件产品。大多数日志管理产品都是以设备的形式,纯粹是因为设备通常在处理性能和存储要求方面能够比在通用操作系统运行的软件产品更简便。当然,管理员也能够配置和优化软件产品的主机操作系统让软件产品像设备产品一样有效,毕竟,设备也只是运行日志管理软件的操作系统主机而已。只不过设备产品已经完成了硬配置和优化工作。设备的缺点就是,它们往往局限于现成的配置和磁盘能力,而基本操作系统(通常是Linux或者Windows系统)的补丁修复也是个问题。虽然本文测试的设备供应商都声称会将基本操作系统的漏洞修复和更新作为其正常产品升级(通常为自动化)的一部分,我们发现很多产品仍然在运行旧版本的代码,例如Apache网络服务器,存在很多已知漏洞。如果你决定使用设备产品,询问供应商他们是否会及时更新基本操作系统的漏洞修复程序。如果根据使用条款允许的话,可以考虑在购买前测试产品的漏洞问题。工作量分配测试的产品中,大多数产品都提供一体化功能,也就是说他们的产品可以作为管理控制台、数据采集器、存储设备、索引(搜索查询结果和过滤器)、报告生成器。此外,大多数产品都可以配置为提供一个或者多个功能服务,而不需要执行所有功能。如果你要从几百个客户端收集日志信息的话,工作量分配无疑是非常重要的。这并不是日志管理产品本身的瓶颈问题,对于设备产品来说,它通常会有四个或者四个以上千兆以太网接口,但是网络只能够维持这么多的额外流量才不会造成应用程序和操作性能问题。从1000台计算机发送日志信息到一个日志管理器会导致网络瘫痪。与供应商合作来解决日志管理工作量分配问题,以最大限度提高系统环境的性能。本文中的每个产品都可以作为本身的存储和转发收集器,这意味着你有一个日志管理层可以在转发数据(通常是压缩)到中央日志管理层之前收集所有本地流量。很多产品都可以转发事件到其他产品,特别是那些支持syslog和SNMP的产品。而有几个产品(包括软件和设备产品)可以只作为收集器或者索引器,这两个也是占用CPU最多的操作。向供应商提供你的网络数据(网络带宽、有效功率和需要监测的客户端数量)以及企业日志管理计划。然后让供应商提供他们推荐的工作量分配配置。对于设备产品来说,这往往意味着不同位置的不同硬件模型。性能是非常重要的,不仅对于避免网络拥堵问题,也关系到实时或者历史数据分析、打印报告和进行更深入的分析。当你需要处理几千万到几十亿的事件信息时,你肯定不想为了简单的查询回复而等待10分钟。如果你的解决方案涉及多个日志管理节点,请确保查询和报告可以在各个节点间允许哦那个,这意味着在管理控制台的一次点击能够执行所有产品的搜索和报告。这些测试的产品在工作量分配方面都相当灵活,而唯一例外就是GFIEventsManager。大部分供应商都会声称他们的产品适用于任何类型的环境,并且很多供应商还表示他们安装的解决方案每天都在处理数百亿的信息,而没有任何客户投诉。在花大笔钱购买日志管理产品前,务必要进行完全测试,并获取供应商关于性能方面的书面保证。管理控制台仪表板每个日志管理产品都有管理控制台仪表板,显示关于日志管理系统本身和所监测事件的关键实时和短时期总统计数据。大多数仪表板都会报告事件消息数、本地CPU性能以及关于任何重要事件的通知。几乎所有供应商都允许仪表板自定义,让用户自己配置仪表板显示信息。在大多数情况下,仪表板显示是上下文相关的。你可以点击显示的图形来获取更详细的信息。少数产品(例如NitroSecurity)允许大量修改,几乎所有数据、图形或者警报都可以显示。用户角色是很重要的,大多数产品都允许管理员(拥有完全权限)来设置更多有限角色。例如,有些产品允许有限的管理员被定义,以防万一当需要管理员级别权限而仅涉及预定义客户端:所有windows计算机、所有思科路由器等。大多数产品都有一个只读角色,不能对任何配置设置作修改,但该角色用户可以运行报告和查看预定义图表和数据。大多数产品都只允许2至4个角色被定义,值允许管理员来定义显示什么屏幕。其他产品(包括Splunk、NitroSecurity和LogLogix)允许更多的角色定义,屏幕上的每个属性和域都可以根据每个角色来定义。日志收集从各种被监测客户端收集日志信息是所有日志管理产品的主要功能,大多数产品既有无代理模式又有客户端代理模式来收集日志。没有代理意味着管理员不需要为每个客户端分配、安装和配置额外软件。但是,无代理日志收集仍然需要规划。大多数产品使用syslog转发、WMI查询或者其他远程方法来收集日志(后两者通常需要客户端管理员密码)。如果涉及防火墙的话,这些方法都需要必要的规则修改。不管怎样,都不要认为无代理没有运行或者会发挥巨大作用。客户端代理具有无代理收集方法不具备的优势。大多数代理都有多个配置选择,允许管理员对哪些事件被收集以及如何收集有更细粒度的控制。例如,不是发送每条日志信息到中央服务器,代理可以仅发送关键事件,并且如果需要的话,还可以本地存储事件信息以备以后的检索。客户端代理通常能够提供传输压缩,允许更多的时间在更多的时间使用更少的网络带宽来发送。被监测的客户端可以一次添加一个(通常通过IP地址或者域名),使用大量输入(一次添加多个设备)或者使用某种发起查询进程(通常通过ActiveDirectory浏览或者IP地址扫描)。带部分产品允许“设备组”被创建,来收集一个或多个既定组名的受监测客户端,根据某种属性来分组,例如设备类型、IP地址或者名称。设备组然后可以作为单一实体被监测,这样当试图监测某特定类型设备时更容易实现警报和报告。客户端代理也可以用来存储事件,例如当集中日志管理工具离线时。最先进代理的最佳功能之一就是衡量网络和/或本地CPU使用率,并节流信息发送率直到网络不在拥堵。最后,很多代理都有“心跳”功能,让客户端没有在一定时间内传输信息就会发出警报,虽然这可以被“零基准”警报模拟。毫不奇怪,长期的SIEM领跑者ArcSight比其它竞争对手拥有更多的客户端代理。如上所述,日志管理产品拥有的解析数据越多,就能够更快更有效地从大量数据中筛选特定数据类型。一个产品最大的不同就是,该产品定义了多少解析器。例如ArcSight就捆绑了超过100个定义的数据收集器。在更低端领域,有些产品只有几十个解析器或者声称他们的通用解析器效率相同。但在一般情况下,解析器越能够模拟你的环境就越好(但这不是唯一的判断点)。有些日志管理产品允许管理员创建他们自己的解析器,这在很多环境都非常有用。相关补充说明:大多数产品都声称拥有windows事件日志收集代理。然而,很多这些代理都是在微软最新windows版本推出前创建的,并不能对这些最新操作系统版本进行细致的分析。很多解析器和代理了解三种传统默认日志:应用程序、安全和系统,但是不能允许管理员从WindowsVista、Windows7和WindowsServer2008提供的100-plus内置审查中进行选择。Splunk是一款理解新windows日志格式的工具,不过,我们还没能找到一款工具能够与更新的windows内置事件转发技术结合(即使该产品承载在windows操作系统上并能够使用这项更新的技术)。Windows自带的事件转发可以替代所有其他代理和无代理方法。如同大多数产品的通病,日志管理并没有更上最新客户端变化的步伐。日志存储存储数百万到数十亿信息需要占用大量磁盘空间。大多数设备在RAID配置中都有兆兆级磁盘存储。虽然软件和硬件产品都声称能够进行某种存储压缩,但是根据很多客户对传输压缩的投诉,供应商所谓的存储压缩让我们将信将疑。他们的存储压缩统计数据通常都是基于最小的事件日志信息以及最高的压缩数值,这并不能反映真实世界的结果。不过,大家需要找供应商弄清楚产品是软件还是合并?产品支持的最大磁盘空间(或者文件大小)以及配置?支持何种RAID阵列?不同RAID配置有不同的性能特点,也就是说,有些写入很快,有些读取更快,灵活度是一个考量因素。供应商是否支持对收集日志数据的数字签名以满足验证需求?大多数产品都有最大日志尺寸,这与底