高可用(keepalived)部署方案

高可用说起来感觉很高大上,我刚接触的时候也是一头雾水,但是需求的时候很容易理解的,当一台服务器挂了另一台能够马上顶上去继续提供服务,这就叫做高可用,需求其实不难理解,只是需要自身根据项目的实际需求还有环境进行搭建环境,每一步还有整体的安装方法都需要自己去踩坑的,而且这个坑非常多,要不停的复现各种问题,然后尝试各种思路来解决碰到的问题,而且我们的客户大部分都是离线环境,也就是不接触外网的,所以安装起来就会有很多问题,我所需要达到的目的就是,根据我的文档步骤安装就能实现需求,所以工作量是可想而知的,你需要下各种软件包,还有每个软件包的版本会不会有不兼容的情况,当这个软件出现问题我的虚拟机需要重新回滚到刚开始的快照,都是一些麻烦点,所以当一个先驱踩坑者还是需要划分大量的时间的

前言:为了减少管理系统的停工时间,保持其服务的高度可用性。同时部署多套同样的三维可视化系统,让三维数据中心可视化系统同时部署并运行到多个服务器上。同时提供一个虚拟IP,然后外面通过这个虚拟IP来访问管理系统,当一台实体服务器挂掉时会自动的切到另一条服务器,但是这个虚拟IP依然能提供服务。

要实现高可用性,需要保证数据的一致,因此需要保证这几台服务器上的数据库中的数据一致;同时还需要保证上传的文件信息一致。最后需要通过软件监听程序来监听并且挂掉时进行自动切换。

一、什么是高可用?

高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。

假设系统一直能够提供服务,我们说系统的可用性是100%。

如果系统每运行100个时间单位,会有1个时间单位无法提供服务,我们说系统的可用性是99%。

很多公司的高可用目标是4个9,也就是99.99%,这就意味着,系统的年停机时间为8.76个小时。

百度的搜索首页,是业内公认高可用保障非常出色的系统,甚至人们会通过www.baidu.com 能不能访问来判断“网络的连通性”,百度高可用的服务让人留下啦“网络通畅,百度就能访问”,“百度打不开,应该是网络连不上”的印象,这其实是对百度HA最高的褒奖。-----摘选自知乎

二、如何保障系统的高可用

我们都知道,单点是系统高可用的大敌,单点往往是系统高可用最大的风险和敌人,应该尽量在系统设计的过程中避免单点。方法论上,高可用保证的原则是“集群化”,或者叫“冗余”:只有一个单点,挂了服务会受影响;如果有冗余备份,挂了还有其他backup能够顶上。

保证系统高可用,架构设计的核心准则是:冗余。

有了冗余之后,还不够,每次出现故障需要人工介入恢复势必会增加系统的不可服务实践。所以,又往往是通过“自动故障转移”来实现系统的高可用。-----摘选自知乎

人话:两台或者多台服务器启动着相同的服务,如果有一台故障,另一台自动接管,我们将这个称之为高可用;

类似服务器:冗余,类似服务器有2-4个电源,其中一个断了另外一个启用.或者是ups

上图:

图片

安装keepalived:

离线安装方法:因为我们的大部分客户都是属于数据中心,并不会连接外网,所以采取离线安装的方式比较多,在线安装的方法非常简单,如下命令即可,在安装keepalived之前确保安装了摄像头的那一套东西,因为这里涉及到需要安装openssl的模块,如果没有装请先装nginx摄像头相应的软件

keepalived的运行模式:

准备条件:

需要三个ip,并且保证是局域网,相互之间ping的通,前面两个ip好理解,两台服务器,第三个ip就是一个虚拟ip,就是空余ip没被启用的即可,我们访问系统的话就是通过这个虚拟ip访问

优先级

VRRP根据优先级来确定虚拟路由器中每台路由器的地位;

非抢占方式

如果Backup路由器工作在非抢占方式下,则只要Master路由器没有出现故障Backup路由器即使随后被配置了更高的优先级也不会成为Master路由器;

抢占方式

如果Backup路由器工作在抢占方式下,当它收到VRRP报文后,会将自己的优先级与通告报文中的优先级进行比较。如果自己的优先级比当前的Master路由器的优先级高,就会主动抢占成为Master路由器;否则,将保持Backup状态.

yum install keepalived-y   //这是在线安装方式,没有网络的话直接往下看

下载文件
链接:百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/s/1SD5Hr4Zg8EhgPb3eE8z4wA

提取码:3ebb

1.上传文件

1.首先把文件传到opt下面

图片

2.解压安装

cd /opt
tar -zxvf keepalived-2.0.20.tar.gz

图片

3.编译

cd  keepalived-2.0.20

图片

./configure --prefix=/usr/local/keepalived

会发现有一个报错

图片

4.报错信息然后安装

cd /opt
rpm -ivh libnl-1.1.4-3.el7.x86_64.rpm --force --nodeps
rpm -ivh libnl-devel-1.1.4-3.el7.x86_64.rpm --force --nodeps
cd keepalived-2.0.20
./configure --prefix=/usr/local/keepalived

图片

没有报错了,继续往下执行

make && make install

输入上面的命令会报以下错误图片

解决:

cd /usr/local/lib64
export LIBRARY_PATH=/usr/local/lib64
cd /opt/keepalived-2.0.20
./configure --prefix=/usr/local/keepalived
make && make install

执行完之后也没报错了图片

5.初始化keepalived

cp /opt/keepalived-2.0.20/keepalived/etc/init.d/keepalived /etc/init.d/
cp /opt/keepalived-2.0.20/keepalived/etc/sysconfig/keepalived /etc/sysconfig/
cp /usr/local/keepalived/sbin/keepalived /usr/sbin/
mkdir -p /etc/keepalived
cp /usr/local/keepalived/etc/keepalived/keepalived.conf /etc/keepalived/
chmod +x /etc/init.d/keepalived

6.添加keepalived到开机启动

chkconfig -add keepalived

图片

chkconfig keepalived on

图片

7.启动、关闭、重启

service keepalived start  //启动
service keepalived stop   //停止
service keepalived restart   //重启

当我们启动使用 service keepalived start 启动的时候会报错

图片

解决:

ln -s /usr/local/lib64/libssl.so.1.1 /usr/lib64/libssl.so.1.1
ln -s /usr/local/lib64/libcrypto.so.1.1 /usr/lib64/libcrypto.so.1.1

在输入命令启动

service keepalived start

图片

以上的1-7步骤在备机上也需要装一下,请注意

8.配置keepalived

主机:192.168.10.65

备机:192.168.10.38

虚拟ip:192.168.10.78

在主机下操作:

vi /etc/keepalived/keepalived.conf

以下就是我们需要修改的内容,这里注意下最后面一个

virtual_ipaddress {
       192.168.10.78/24 dev ens33 label ens33:1 #推荐配置
      #192.168.10.78(有的是这么写的,但是如果这么写,当备机切换为主机的时候会黑屏3分钟)
    }

前面一串就是虚拟机的ip,后面按照我的格式写,最后那个ens33:1,绑定的就是enss33下面子网卡的第二块,默认是从0开始的,所以就是第一块,这里也可以直接填虚拟机ip,但是当备机切换为主机的时候会黑屏3分钟,这里我已经被坑的差点爬不起来了,真的图片

图片

填完直接 :wq!保存退出即可

上面图里面说的网卡名称查询方法:

ip addr

图片

然后重启keepalived

service keepalived restart

图片

service keepalived status     //查看keepalived的状态,下图表示已经启动

图片

在备机下操作:

vi /etc/keepalived/keepalived.conf

以下就是我们需要修改的内容图片

填完直接 :wq!保存退出即可

然后重启keepalived

service keepalived restart

图片

service keepalived status     //查看keepalived的状态,下图表示已经启动

图片

9.验证

启动后看对应的虚拟IP地址是否生成,当主机关掉或者其对应的keepalived服务挂掉后备机是否生成对应的虚拟IP,以及主机重启工作时虚拟IP是否重新漂移到主机上。

我们可以相互ping一下,可以看见是通的

图片

上面我们讲过,默认访问就是主机,主机挂了就是切换到备机,我们只需要查看主机上面的ip,上面很明显有两个ip,其中有一个就是虚拟机ip

图片

当我们把主机关掉或者主机的keepalived服务关掉之后看能否重新漂移回来呢?

图片

我们再看看ip addr,很明显已经没有了虚拟ip

图片

我们已经成功关掉了主机的keepalived服务,我们看下备机上能够看到虚拟ip吗

我们在备机上操作,我们可以看到虚拟ip跑到了这上面,看到这里你是不是对keepalived的工作模式有了一个浅显的认识,接下来我们开启主机的keepalived服务,能够在跳过去嘛.这就是模拟当主机已经恢复服务了,看能否自动跳转过去

图片

启动主机的keepalived服务:

service keepalived start
service keepalived status

图片

查看ip,很明显已经切换回来了,自此已经配置完成了keepalived服务

图片

mysql主主备份:

保证各服务器上的数据库中的数据一致,因此需要开启数据库同步机制。由于是一整套系统,并且系统内含数据库。由于任何一台服务器都有可能被选中,因此要让所有的数据库上的数据都是最新的,任何一个服务器上的数据发生变化时都要自动的同步到其他的服务器上。

三维可视化管理系统使用的时Mysql数据库,这里采用的时主-主备份机制进行同步的。

主一数据库:192.168.10.38

主二数据库:192.168.10.65

主数据库1:

编辑数据库

vi /etc/my.cnf
# 开启二进制同步
log-bin=mysql-bin

# 设置ID,不能重复,可以使用IP最后一位数字 
server-id=129

# 需要同步的数据名称,多个数据库则要重复设置: bin-do-db,bin-ignore-db为互斥关系, 只需设置其中一项即可
replicate-do-db=itv

# 自增长字段初始值为1
auto-increment-offset=2

# 自增长字段增量值
auto-increment-increment=2

# 跳过所有复制的错误
slave-skip-errors=all

图片

systemctl restart mysqld   //重启mysql服务

主数据库2:

编辑数据库

vi /etc/my.cnf
# 开启二进制同步
log-bin=mysql-bin

# 设置ID,不能重复,可以使用IP最后一位数字 
server-id=128

# 需要同步的数据名称,多个数据库则要重复设置: bin-do-db,bin-ignore-db为互斥关系, 只需设置其中一项即可
replicate-do-db=itv

# 自增长字段初始值为1
auto-increment-offset=1

# 自增长字段增量值
auto-increment-increment=2

# 跳过所有复制的错误
slave-skip-errors=all

图片

systemctl restart mysqld   //重启mysql服务

创建mysql复制账户:

在主一数据库操作:

为主二的所在的ip创建一个账号密码为root1,这样就能够允许远程访问本机数据库了

登录mysql:

mysql -uroot -proot   //登录mysql
use mysql;
grant replication slave on *.* to root1@'192.168.10.68' identified by 'root1';

赋予权限:如果就这样连接的话虽然能访问但还是看不了数据的,所以需要赋予root1权限

update user set `Select_priv` = 'Y',`Insert_priv` = 'Y',`Update_priv` = 'Y',`Delete_priv` = 'Y',`Create_priv` = 'Y',`Drop_priv` = 'Y',
`Reload_priv` = 'Y',`Shutdown_priv` = 'Y',`Process_priv` = 'Y',`File_priv` = 'Y',`Grant_priv` = 'Y',`References_priv` = 'Y',
`Index_priv` = 'Y',`Alter_priv` = 'Y',`Show_db_priv` = 'Y',`Super_priv` = 'Y',`Create_tmp_table_priv` = 'Y',
`Lock_tables_priv` = 'Y',`Execute_priv` = 'Y',`Repl_slave_priv` = 'Y',`Repl_client_priv` = 'Y',`Create_view_priv` = 'Y',
`Show_view_priv` = 'Y',`Create_routine_priv` = 'Y',`Alter_routine_priv` = 'Y',`Create_user_priv` = 'Y',`Event_priv` = 'Y',
`Trigger_priv` = 'Y',`Create_tablespace_priv` = 'Y'
where user='root1';

立即生效:

flush privileges;

在主二数据库操作:

为主一的所在的ip创建一个账号密码为root1,这样就能够允许远程访问本机数据库了

登录mysql:

mysql -uroot -proot   //登录mysql
use mysql;
grant replication slave on *.* to root1@'192.168.10.38' identified by 'root1';

赋予权限:如果就这样连接的话虽然能访问但是访问不了itv的数据,所以需要赋予root1权限

linux下:

update user set `Select_priv` = 'Y',`Insert_priv` = 'Y',`Update_priv` = 'Y',`Delete_priv` = 'Y',`Create_priv` = 'Y',`Drop_priv` = 'Y',
`Reload_priv` = 'Y',`Shutdown_priv` = 'Y',`Process_priv` = 'Y',`File_priv` = 'Y',`Grant_priv` = 'Y',`References_priv` = 'Y',
`Index_priv` = 'Y',`Alter_priv` = 'Y',`Show_db_priv` = 'Y',`Super_priv` = 'Y',`Create_tmp_table_priv` = 'Y',
`Lock_tables_priv` = 'Y',`Execute_priv` = 'Y',`Repl_slave_priv` = 'Y',`Repl_client_priv` = 'Y',`Create_view_priv` = 'Y',
`Show_view_priv` = 'Y',`Create_routine_priv` = 'Y',`Alter_routine_priv` = 'Y',`Create_user_priv` = 'Y',`Event_priv` = 'Y',
`Trigger_priv` = 'Y',`Create_tablespace_priv` = 'Y'
where user='root1';

windows下:

GRANT ALL PRIVILEGES ON *.* TO 'root1'@'192.168.10.38' IDENTIFIED BY 'root1' WITH GRANT OPTION;

grant all privileges on *.* to 'sk'@'localhost';  //试下这条

立即生效:

flush privileges;

测试能否访问:

在主一登录主二的数据库:

mysql -h192.168.10.65 -uroot1 -p    //登录主二的数据库

发现连接失败图片

我们查看3306端口发现被占用,我们开启3306端口,我们在主备机都需要开放此端口

图片

应该是防火墙的原因,

firewall-cmd --zone=public --add-port=3306/tcp --permanent

图片

然后重启防火墙

systemctl restart firewalld.service

继续连接,发现可以连接成功,并且可以查看数据

图片

show databases;  //查看数据库

图片

同理,在主二的数据库可以访问主一的数据库看下:

mysql -h192.168.10.51 -uroot1 -p    //登录主一的数据库
show databases;  //查看数据库

图片

重启数据库

主数据库1: systemctl restart mysqld
主数据库2: systemctl restart mysqld

互告bin-log信息

登录本地的mysql

主主同步还有主从同步都是基于binlog的原理进行,相当于我们打开了这个开关,每次操作数据库都会产生一个binlog日志,然后把binlog日志进行发给对方进行执行,这样数据就保持同步了

首先进入MySQL命令行:

图片

主数据库1:

查看日志: show master status;

图片

设置同步:

change master to master_host = '192.168.10.65',master_user='root1',master_password='root1',master_port=3306,master_log_file='mysql-bin.000002',master_log_pos=154;

图片

备注: master_log_file与File值一致, master_log_pos与Position值一致

开始同步: start slave;

图片

查看同步情况:

show slave status\G;

当看到了两个yes,即:Slave_IO_Running: Yes

Slave_SQL_Running: Yes

说明已经配置成功了,但是这里有一个显示为no,明显有问题

图片

解决办法:

stop slave;
reset slave;
start slave;

然后我们继续查看同步情况;

show slave status\G;

图片

灰常完美

主数据库2:

图片

这里其实跟上面的主数库一是一样的操作

show master status;

图片

change master to master_host = '192.168.10.51',master_user='root1',master_password='root1',master_port=3306,master_log_file='mysql-bin.000002',master_log_pos=154;

备注: master_log_file与File值一致, master_log_pos与Position值一致

开始同步:

start slave;

图片

查看同步情况:

show slave status\G;

图片

当看到了两个yes,即:

Slave_IO_Running: Yes

Slave_SQL_Running: Yes

说明已经配置成功了,如果这里的slave_io_Running显示no依然采用上面的办法操作即可

开启keepalivedde 项目测试:

在主一和主二机器上分别部署项目,并且导入相同的数据库,然后用forever启动,这个在之前的部署环境就有讲过,此处不再赘述,我们开启项目

在主机上开启机房:

图片

在备机上也开启机房:

图片

然后我们开始访问这两个项目(注意此时的防火墙,虚拟ip的也要把8081端口打开):

我们发现两个项目都可以顺利的打开,这时候我们就使用虚拟ip进行访问,因为实际我们也是通过这个虚拟ip进行访问的,我们的虚拟ip是192.168.10.78,可以顺利访问了

现在我们就关掉主机的机房程序,看他能不能访问

关掉主机服务:

forever stopall

图片

然后关掉主机的keepalived的服务:

service keepalived stop

图片

这里插入一下知识点:

在实际项目中,keepalived并不知道我们的机房程序已经挂了,所以要时刻监听8081端口的状态,如果8081端口监听不到那么就停止keepalived这个服务,以下是shell脚本,然后我们设置监听一分钟即可

crontab -e    //设置1分钟检测一次
*/1 * * * * /usr/bin/bash /home/t3.sh

然后在在/home/ 下写一t3.sh文件,内容如下

A=`netstat -lnp | grep 8081 | wc -l`

if [ $A -eq 0 ]; then
    # echo "keepalived 应该关闭了"
    /usr/sbin/service keepalived stop
fi

现在我们继续访问主机的程序,然后在访问虚拟ip

图片

可以看到,主机程序已经访问不到,那么访问虚拟ip呢(这里注意虚拟ip机大的防火墙一定要关闭或者是开放8081端口)

可以看到,虚拟ip已经飘到备用服务器上了,这时候备机上面已经有了虚拟ip

图片

如果现在主机重新上线,虚拟ip还会从备机飘到主机上,这时候就会产生一个现象,就是脑裂

我们启动主机的机房并且启动keepalived

图片

我们再看备机,我们发现两个机器上都有虚拟vip,我们把这称之为脑裂

什么是脑裂?

脑裂(split-brain):指在一个高可用(HA)系统中,当联系着的两个节点断开联系时,本来为一个整体的系统,分裂为两个独立节点,这时两个节点开始争抢共享资源,结果会导致系统混乱,数据损坏。(类似癫痫病人)

图片

如何解决?

指定keepalived配置的网卡:ens33,固定的VRRP广播地址:224.0.0.18,

在主机上操作:

firewall-cmd --direct --permanent --add-rule ipv4 filter INPUT 0 --in-interface ens33 --destination 224.0.0.18 --protocol vrrp -j ACCEPT
firewall-cmd --reload

在备机上操作:

firewall-cmd --direct --permanent --add-rule ipv4 filter INPUT 0 --in-interface ens33 --destination 224.0.0.18 --protocol vrrp -j ACCEPT
firewall-cmd --reload

咱们再来看有没有脑裂现像

主机上操作:

图片

备机上操作:

图片

可以看到,脑裂现象已经消失,至此主备机的切换已经完成


版权声明:本文为beichengqing原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。