HACMP认证学习系列,第5部分:后期安装工作和管理任务(1)摘自红皮书《IBMeserverpSeriesHACMPV5.xCertificationStudyGuideUpdate》DinoQuintero,高级认证IT咨询师,IBMJapanDinoQuintero是一个高级认证IT咨询师,在纽约的ITSO工作。在进入ITSO之前,他是EnterpriseSystemsGroup的一名性能分析师,同时也是IBM全球服务部的一名灾难恢复架构师。他的专业覆盖灾难恢复和p系列主机的集群解决方案。目前,他正带领一个团队负责提供全球的p系列集群解决方案服务以及相关的授课工作。简介:本文介绍了在常规集群操作过程中应执行的后期安装工作和管理任务。维护一个集群配置并将更改应用到一个正在运行的集群需要严格的过程和更改管理;否则,集群可能无法维持平衡,并且在出现故障时可能无法按设计的方式进行响应(故障转移)。系统管理员和应用程序管理员必须密切协作,维护一个正常运行的集群,使之总能够提供预期的结果。使用C-SPOC本文描述使用集群单点控制(C-SPOC)的HACMP系统管理的优点。在我们的测试实验环境中(请参见图1),集群配置由以下各项组成:•三个节点(IBMpSeries630-6C4,机架安装)•两个用于客户端网络的10/100网络交换机,使用两个交换机是为了提供高可用性•一个千兆比特以太网交换机,用于进行高速互连•一个光纤通道交换机,型号为2109-F32•一个存储子系统,型号为1742-9RU(FAStT900),带一个EXP700磁盘箱和1TB的原始存储容量PDF文件使用pdfFactoryPro试用版本创建测试环境为方便管理集群中的操作,HACMP提供了一种方法,通过该方法可以在多个集群节点执行命令并维护要执行操作之间的协调。一些集群维护操作可能影响HACMP配置(拓扑和资源),但通过HACMP系统管理工具(C-SPOC),无需停止关键作业即可执行这些任务(如添加或删除资源、用户和更改拓扑元素)。注意:C-SPOC使用一种新的集群通信守护进程(clcomdES)在远程节点上执行命令。如果此守护进程没有运行或者无法验证来自发起者节点的请求,将不会执行远程节点上的命令,因此C-SPOC操作将会失败。C-SPOC注意事项C-SPOC工具简化了多达32节点的集群中的共享LVM组件的维护。与单一节点上运行的标准AIX命令相比,C-SPOC命令在集群环境中提供了与之相当的功能。通过自动执行重复任务,C-SPOC消除了潜在的错误根源,加快了处理过程。如果没有C-SPOC,系统管理员将需要花费较长时间在每个集群节点上分别执行管理任务。例如,要将一个用户添加到集群中的某些(或者所有)节点,则必须在每个集群节点上执行此任务。使用C-SPOC实用工具,在一个节点(发起更改的节点)上执行的命令也会在其他集群节点上执行。C-SPOC最大限度地减少了管理开销,并降低了节点状态PDF文件使用pdfFactoryPro试用版本创建不一致的可能性。例如,在使用C-SPOC添加某个用户时,会将该用户添加到所有指定的集群节点上。注意:C-SPOC命令位于/usr/es/sbin/cluster/cspoc目录中。C-SPOC通过其本身的一组集群管理命令提供了此功能,可以通过SMIT菜单和面板使用这些命令,也可以通过命令行使用。除非确实知道您要尝试获取的内容,否则,我们不建议您使用命令行界面。要使用C-SPOC,请从HACMPSMIT菜单中选择ClusterSystemManagement选项。C-SPOC概述通过使用C-SPOC,您可以执行下列任务:•启动和停止HACMP服务•通信接口管理•资源组和应用程序管理•安全和用户管理•逻辑卷管理•并发逻辑卷管理•物理卷管理•GPFS文件系统配置(可选)•在一个节点上打开SMIT会话启动和停止HACMP服务假设向HACMP定义的IP通信路径对远程节点可用,您可以在集群中的一个节点或多个节点上启动或停止HACMP服务(从同一个节点)。可以通过以下三种模式执行停止HACMP服务:•Graceful•Gracefulwithtakeover•Forced限制:•不应使用Forced选项一次在多个节点上停止集群服务。•如果一个节点包含一个具有并发卷组的资源组,则无论该并发卷组的类型如何(传统并发或增强的并发),都不得使用Forced选项停止该节点。否则可能会导致数据损坏。通信接口管理PDF文件使用pdfFactoryPro试用版本创建使用此功能,您可以修改集群中所有节点的通信接口设置。当您希望在节点上添加或从中删除通信接口时,包括替换(热交换)现有通信接口,此菜单特别有用。可以在不停止HACMP服务的情况下执行这些操作,但前提是在每个网络上向HACMP定义了足够的通信接口,以避免使受影响的资源组脱机。资源组和应用程序管理可以对资源组和应用程序执行的操作有:•使资源组联机•使资源组脱机•将资源组移动到其他节点•挂起和恢复应用程序监视(如果已配置)安全和用户管理在HACMPV5.1中,与HACMP的远程命令扩展相关的操作是通过集群通信守护进程和提供的实用工具(cl_rsh、cl_rexec等)执行的。只有集群命令(位于/usr/es/sbin/cluster中的命令)可以作为root用户运行;所有其他命令只能作为“nobody”用户运行。集群通信守护进程根据HACMP配置中定义的通信接口的IP地址提供自己的身份验证(基于主机的身份验证)。此外,还可以通过Kerberos服务器执行身份验证(假设在环境中已经设置服务器并且服务器可用)。您可以将clcomdES身份验证从“标准”更改为“增强”(Kerberos)。对于用户管理,您可以添加、删除和修改集群中所有节点或者指定节点或资源组上的用户和组。还可以更改一个节点、集群中的所有节点、或者属于特定资源组的节点上的用户密码。限制:在HACMPV5.1中,只有root用户才可以使用C-SPOC更改其他用户的密码。而且,HACMP无法阻止用户在单个节点上更改自己的密码。逻辑卷管理在使用此功能时,您可以添加新的和修改现有的卷组、逻辑卷和文件系统,但无法删除以前创建的LVM对象。对于此操作,需要确保卷组不属于任何资源组,然后才可以从所有节点上手动导出卷组定义。PDF文件使用pdfFactoryPro试用版本创建重要:在向集群定义卷组后,应该运行HACMP配置自动发现(auto-discovery)功能,并将以前创建的卷组添加到资源组。如果不将新卷组添加到资源组,则即使在预定节点上成功地进行了挂载,也无法使用C-SPOC对此卷组创建逻辑卷或文件系统。并发逻辑卷管理并发逻辑卷管理类似“逻辑卷管理”,不同的是您可以创建并发卷组。请记住,使用AIX5LV5.2,您无法创建传统(classic)的并发卷组(即使使用32位内核也如此);只能创建增强(enhanced)的并发卷组。无论并发卷组的类型如何(传统的或增强的),还必须运行发现并在资源组中包括新卷组才能进一步使用(逻辑卷创建)。物理卷管理使用此选项,可以向集群节点添加或从中删除物理磁盘。这有助于在所有节点上维护磁盘配置。由于硬盘数在每个集群节点上可能不一样(由于不同的内部磁盘配置等原因造成),因此HACMP无法使用硬盘号进行C-SPOC操作。将使用物理卷ID进行进一步的操作。在向集群添加物理磁盘时,HACMP可以确保在所有集群节点上统一标识磁盘。GPFS文件系统配置(可选)此选项也称为HACMPGPFS集成功能,它仅在安装了cluster.es.cfs包时才可用,并可以将其与GPFS包一起使用,以便在与HACMP集群相同的节点上配置GPFS集群。有关先决条件和详细信息,请参阅GeneralParallelFileSystem(GPFS)forAIX5LinanRSCTpeerdomain:Concepts,Planning,andInstallation,GA22-7974。在一个节点上打开SMIT会话此工具为集群节点提供了远程系统管理和配置(不只是HACMP菜单)。此功能使用了客户端通信守护进程。C-SPOC及其相关的资源组修改LVM组件的C-SPOC命令需要一个资源组名称作为参数。必须在资源组中配置作为此命令目标的LVM组件,才能实际更改此组件。PDF文件使用pdfFactoryPro试用版本创建使用资源组信息来确定它必须在哪些节点上执行所需的操作。HACMPV5.1中的C-SPOC增强功能在HACMPV5.1中,为提高操作的速度和可靠性,我们改进了C-SPOC,并添加了许多增强功能。其中的一些主要增强功能有:•性能过去,用户之所以不愿意使用C-SPOC,是因为使用命令行等效项的速度更快一些。性能改进的原因是由于C-SPOC使用了集群通信基础结构(clcomdES)。•增强的并发模式(ECM)支持从AIX5LV5.1开始以及后续版本中,可以通过C-SPOC创建增强的并发卷组。•现在支持管理VPATH设备(在HACMPV4.5PTF5中也提供该支持)。•新名称SystemManagement(C-SPOC)已经添加到SMIT面板中。•HACMP软件版本验证引入了更快的机制。不是在每次执行验证时都计算具有最低HACMP版本的节点,而是仅执行一次计算,并在发起验证进程的节点上缓存一个小时数据,以便更快地访问。•为提高效率,更新了一些LVM脚本。配置更改:DARE在配置HACMP集群时,配置数据存储在ODM中的特定于HACMP的对象类中。AIXODM对象类的HACMP存储在缺省配置目录(DCD)/etc/es/objrepos中。在集群运行时,可以对集群拓扑和集群资源执行特定的更改。此操作称为动态自动重新配置事件(DARE)。在HACMPV5.1之前,更改集群拓扑和集群资源非常耗时,这是因为需要在集群中运行多个DARE操作。在同一操作中不可能对资源和拓扑同时执行动态重新配置更改。HACMPV5.1允许通过一个动态重新配置操作组合资源和拓扑更改。PDF文件使用pdfFactoryPro试用版本创建限制:如果在集群中定义了站点,则无法使用DARE对集群资源或拓扑执行更改。这是由于在重新配置过程中,辅助(远程)站点可能会错误地检测到主站点故障并启动一个接管进程。DARE操作动态重新配置需要对集群中所有节点上的HACMPODM类进行更改。在以前的HACMP版本中,每当执行动态配置更改时,将为需要更改的每个类发送到集群中其他节点的多个远程连接。在当前版本中,由于提供了集群通信基础结构(clcomdES),到远程节点的连接已经开放和保持活动状态,因此远程操作更快。在集群启动时,HACMP将其ODM类复制到名为活动配置目录(ACD)的单独目录中。在集群运行时,HACMP守护进程、脚本和实用工具引用ODM的活动配置目录(ACD)中存储的ODM数据。如果当集群管理器在本地节点上运行时,同步集群拓扑或集群资源定义,此操作将触发动态重新配置(DARE)事件。在动态重新配置事件中,将在分段配置目录(SCD)中启动重新配置进程的节点上收集所有集群节点上的缺省配置目录(DCD)中的ODM数据。将在本地节点上收集来自远程节点的HACMPODM类,并执行和向节点发回带时间戳的校验和。执行配置更改,更新分段配置目录中的ODM类,然后发回到原始节点。如果从多个节点启动了验证/同步,则将验证校验和以避免数据损坏,如果校验和正确,将更新目标节点上缺省配置目录中的ODM类(覆盖)。在最后一步中,活动配置目录中的ODM数据将被新的配置数据覆盖。将刷新HACMP守护进程,以便新配置成为当前活动的配置(请参见图2)。图2DAREODM操作PDF文件使用pdfFactoryPro试用