RH436--RHCS集群

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

RH436—Linux集群集群(cluster):一组计算机,它们作为一个整体向用户提供一组网络资源,保证业务和数据不中断。这些单个的计算机系统就是集群的节点(node)。HA(highavailabilitycluster)高可用集群高可用集群是指如单系统一样地运行并支持(计算机)持续正常工作的一个主机群。高可用集群的出现是为了使集群的整体服务尽可能可用,减少由于计算机硬件和软件易错性所带来的损失。如果某个节点失效,它的备援节点将在几秒钟的时间内接管它的职责。高可用集群的主要作用是实现故障检查和业务切换的自动化。实验拓扑图:环境介绍:1.172.25.X.Y--外网访问的网段,VIP(virtualIP,虚拟IP)也要属于这个网段2.192.168.1.Y—连接storage1的网络3.192.168.2.Y—连接storage2的网络4.192.168.0.Y—通过以太网连接的心跳/集群网络(心跳线:用于连接两台集群服务器的网线,用来监测对方的运行状态,一旦工作机发生系统故障,心跳线会反映给空闲机,空闲机收到消息后,迅速抢占工作机资源并开始工作。)5.classroom这台虚拟机上装有DHCP,DNS及yum源,要求跟主机一起启动6.集群中一共有三个节点,分别是nodea,nodeb,nodec7.noded作为ISCSI共享存储设备HA集群图解:一、集群环境搭建:1.用root身份打开虚拟机管理器,将nodea,nodeb,nodec三台虚拟机开启,我们会用这三台虚拟机搭建一个集群环境1.以root身份远程连接到nodea2.安装pcs服务1.关闭防火墙,防止防火墙对实验环境造成影响2.启动pcs服务,并且下次启动nodea这台虚拟机时pcs服务也是启动状态3.给hacluster用户设置密码为redhat(hacluster用户是安装完pcs服务之后生成的用户,用户ID为189)1.安装pcs服务,关闭防火墙,启动pcs服务以及给hacluster用户设置密码(hacluster的密码必须保持一致)可以用一起执行,命令之间用分号隔开。这几条命令在集群当中的每个节点上都需要敲一次,所以在nodec上重复此命令(略)1.将nodea,nodeb,nodec同时加入到pcs中做验证(在集群中任意一个节点做)用户名为hacluster,密码为刚刚设置的redhat2.显示认证完成1.用主机以root身份访问集群的图形化设置界面,端口22241.点击IUnderstandtheRisks2.点击AddException…(出现这个界面不是报错,只是缺少CA认证)1.点击允许1.输入用户名和密码,点击login登录1.点击创建新的集群2.为新的集群取名为cluster13.添加集群的三个节点,分别为nodea,nodeb,nodec(在填写时要打全称,如图)4.信息编辑完成后,点击创建1.现在可以看到刚刚创建的集群cluster1,点击cluster1,进入配置界面1.点击clusterproperties(集群特性)2.将stonith爆头机制关闭(在没有配置fencedevices之前,关闭stonith机制)3.应用修改二、浮动IP1.点击资源2.点击add新建资源3.使用默认值即可4.将type改为Ipaddr25.资源名为vip(virtualIP:虚拟IP,也可以说是浮动IP或者业务IP,这个IP地址是用来提供给外网访问的)6.将业务IP设置为172.25.0.1007.点击创建资源1.表示创建的资源正在正常运行1.在没有创建资源之前,主机跟业务IP之间不能通讯1.创建资源之后,主机就可以跟业务IP通讯了1.在nodea上查看IP的详细信息2.可以看到业务IP已经浮动到nodea的eth0网卡上了1.查看集群中的节点信息2.表示三个节点都在正常工作1.查看业务IP在那个节点2.这里也可以看到集群中节点的状态3.可以看到业务IP在nodea上1.现在将nodea节点手动关闭pcsclusterstop//关闭当前节点pcsclusterstop+节点名(nodeb.cluster0.example.com)//关闭节点nodebpcsclusterstop--all//关闭集群中所有节点1.关闭了nodea,但是主机跟业务IP还是可以通讯在nodeb上查看业务IP的位置1.显示nodea已经处于关闭状态2.可以看到业务IP已经浮动到nodeb上1.在nodeb上查看IP信息,可以看到业务IP1.将nodea再启动起来1.再次查看,发现业务IP并没有浮动回nodea(没有针对资源给节点设置优先级,如果设置优先级,让nodea为业务IP的主服务器,当nodea恢复正常之后,业务IP会浮动回nodea,节点优先级的设置见resources)1.将nodeb设置为standby模式1.在图形化界面可以看到nodeb处于standby模式1.再次查看资源,显示nodeb处于standby模式2.当nodeb节点设置为standby模式时,业务IP切换到nodea节点上1.将nodeb节点恢复正常2.查看资源,发现nodeb节点恢复了之后,业务IP也没有切换到nodeb上三、Quorum:Quorum(法定票数):集群存活的要素,也就是集群中存在的最少个数。这样对于一个3节点的集群,最少需要2个节点激活才有效。一个6节点集群最少需要4个节点激活,以此类推,公式一般就是集群至少有(n/2+1)(n为总票数,n/2只取整数)个节点数集群才能工作。如果存活的节点个数小于quorum值,整个集群就会挂起,停止服务。按照这个说法再来看我们现在的环境,一共有3个节点,如果有2个节点出现故障,那么集群就会挂掉。下面开始实验:1.选择clusterproperties(集群特性)2.将noquorumpolicy后的选项改为ignore(noquorumpolicy:不考虑集群存活要素,默认选项为stop,就是要考虑集群存活要素。如果改为ignore,就是忽视集群存活要素,那么当存活的节点个数小于quorum值时,对集群不会有影响,只要是集群中的节点就可以轮循)3.应用更改的操作1.查看集群中各节点的票数(votes代表票数,每个节点默认一票)1.将nodea手动关闭1.可以看到资源现在运行在nodeb节点上2.手动去关闭nodeb节点,会出现错误提示:如果关闭这个节点,会导致集群失效(就是由于quorum机制)如果一定要关闭该节点,在命令后加--force(强制)来实现。3.强制关闭nodeb节点1.通过查看,可以看到集群中只有nodec这个节点存活2.资源运行在nodec节点上,集群也没有挂掉,说明这个集群并没有受quorum机制的影响。这就是将noquorumpolicy后的选项改为ignore的实验效果。将环境恢复一下1.将集群中所有节点都关闭2.将集群中所有节点都开启3.查看集群信息,可以看到资源运行在nodea节点上并且三个节点都在正常运行1.将noquorumpolicy后的选项改回stop2.应用更改的操作1.现在手动关掉nodea节点在关闭了nodea节点之后,主机跟业务IP还可以通讯1.手动强制关闭nodeb节点1.在节点nodea,nodeb都关闭了之后,主机与业务IP通讯中断1.查看集群状态,看到nodec还处于online状态,但是资源的那一行已经没有显示,这就说明quorum值发挥作用,集群已经开始失效。四、fence:fence是stonith爆头机制中的一个工具,防止网络中出现脑裂问题。脑裂问题:当联系着的两个节点之间心跳出现故障,本来为一个整体的系统,分裂成为两个独立的节点,并且两个节点都处于active状态,这时两个节点开始抢占共享资源,结果会导致系统混乱,数据破环。stonith(shoottheothernodeinthehead):爆头机制,借助fence设备强制关闭其中一个节点fence工作原理:当空闲节点通过心跳线得知服务节点发生问题,或者通讯失败等,空闲节点就会利用服务节点上的fence卡将该节点关机或重启,并迅速将服务资源抢占到本节点上,向外提供服务。下面开始实验:1.将stonith机制打开2.点击应用更改的操作1.在主机和nodea,nodeb,nodec各节点安装fence软件包(图为主机安装fence截图,其他节点操作一样,图略)1.在主机上创建一个/etc/cluster文件夹2.在/etc/cluster文件夹中创建一个名为fence_xvm.key,大小为4k的文件1.在主机上配置刚刚创建的fence_xvm.key2.配置网络接口为br03.保存以上配置到fence_xvm.key1.在主机上重启fence服务并且保证下一次开机fence服务是启动状态1.在nodea,nodeb,nodec各节点上分别创建/etc/cluster文件夹(图为在nodea创建文件夹,nodeb,nodec重复操作,图略)1.将fence_xvm.key文件,远程复制到nodea上2.将fence_xvm.key文件,远程复制到nodeb上3.将fence_xvm.key文件,远程复制到nodec上1.分别在nodea,nodeb,nodec节点上重启fence服务(图为在nodea上重启服务,nodeb,nodec重复操作,图略)1.点击fence设备选项2.点击添加fence设备3.选择类型为fence_xvm4.填写fence设备名称为fence15.填写机器名(只需要填写机器名,不需要是全称)6.点击创建fence设备,fence设备创建完毕1.在nodeb节点上手动fence掉nodea2.提示nodea已经被fence掉现在就可以看到nodea已经开始重启,fence设备配置成功。五、resources:Resources是集群的核心,主要包含服务脚本、IP地址、文件系统等。在前面我们已经创建过一个资源—浮动IP。Resourceslocationpreferences:资源位置首选项,Resourcesorderingpreferences:资源次序选项Resourcesorderingsetpreferences:资源次序设置选项Resourcescolocationpreferences:资源主机代管选项Resourcesmetaattributes:资源元属性下面开始实验:1.点击资源位置首选项2.填写nodea节点的全称3.填写score值(score值:这个值的大小是自己定义的,针对单个资源给节点设置优先级,score值越大,优先级越高,则相应的资源就会优先选择浮动到该节点从而对外提供服务。在企业环境中,节点的硬件性能越好,相应的设置的score值就越大。)4.点击添加1.给nodeb节点设置一个score值为70,做法如上1.通过命令可以看到现在资源在nodea上。(之前在浮动IP的那个实验结果可以看到,没有设置score值之前,如果nodea节点standby,那么资源会浮动到nodeb节点上,但是nodea恢复正常工作之后,资源不会回到nodea节点。)1.将nodea节点standby1.在nodeb节点查看,发现业务IP已经切换到nodeb节点上1.将nodea节点unstandby2.再次查看资源,发现资源已经回到nodea节点1.点击资源元属性2.填写resource-stickiness3.填写value值为21(若resource-stickiness的value值+备份节点的score值主节点的score值,资源就不会回迁)4.点击添加1.通过命令可以看到现在资源在nodea节点上2.将nodea节点standby1.再次查看资源已经切换到nodeb节点上1.将nodea节点unstandby2.再次查看资源,发现资源依旧在nodeb节点上1.点击将resource-stickiness的value值删除1.添加is-managed参数,

1 / 70
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功