本文共 1499 字,大约阅读时间需要 4 分钟。
在项目运营维护中遇到以下问题
计划停机时间:物理服务器进行硬件维护、硬件更新(vMotion虚拟化主机迁移)
非计划停机时间:物理服务器故障,快速恢复、连续可用性,减少非计划停机时间(HA和FT)集群(HA)是将多个主机(服务器)通过网络连接的方式组成一个整体,各个主机间是相互协同运行(集群就是进行统一管理)
当主机出现问题,网络中断,集群虚拟机可以从当前异常主机上切换到其他主机环境上运行 目的:有效防止异常情况下,业务长时间中断 集群原理集群的原理:基于共享存储,实现HA高可用性,通过集群通信口,更新各个主机状态共享存储功能:实现动态资源分配、高可用性,冗余RAID、备份、在线迁移(FC通道存储、ISCSI存储) 自从有了网络存储以后,主机(服务器)只是提供CPU、内存
集群网络层面接口 1、集群管理通信网口:主机间信息同步、集群管理,虚拟机操作 2、存储通信网络:访问共享存储 3、数据通信网络:vxlan通信网络、虚拟网络内部跨主机通信 4、物理出口:虚拟网络跟物理网络之间的桥梁
vSphere HA 用于意外故障切换,当监控到群集中有主机意外故障时,虚拟机会自动切换到其他主机上承载服务 1、ESXI主机故障(将虚拟机切换到其它的ESXI主机上) 2、客户OS故障(群集侦听虚拟机心跳信号,若虚拟机长时间没发送信号,群集将重启虚拟机) 3、应用程序故障(安装VMware Tools,需要第三方检测代理,中断恢复)缺点:存在down机时间
VMware Tools心跳信号网络,使用VMkernel端口
1、主控和从属主机之间发送心跳
2、用于确定主控和从属主机是否出现故障 3、通过心跳信号网络发送 Master的作用 1、Master监视slave主机,当slave主机出现故障时重启虚拟机 2、Master监视所有被保护虚拟机的电源状态,如果被保护的虚拟机出现故障,它将重启这个虚拟机 3、Master管理在Cluster内部的主机清单,并且对添加和删除Cluster内部的主机进行管理 4、Master管理管理被保护虚拟机的清单,在每一次用户发起开关机操作时,更新这个清单,vCenter会要求Master保护或者不保护某些虚拟机 5、Master缓存Cluster配置,Master通知和提醒slave主机,Cluster配置的修改定义集群名称
根据实际情况
设置HA虚拟机行为选项,虚拟机按优先级重启顺序,主机失去管理网络连接采取的动作
通过VMware tools检测,如果未收到VMware tools心跳信号,则重置虚拟机,设置检测故障频率
EVC增强型vMotion兼容性,主要针对CPU,模拟CPU一致性进行在线迁移
如果集群中有一个ESXI主机内存在开机状态的虚拟机,ESXI是不能启用EVC技术解决单链路报警问题
FT对ESXI主机要求
1、相同的FT版本 2、必须激活HA 3、必须启用EVC 4、相同共享存储、网络 5、需要一个传输FT日志的网络连接 6、兼容FT的CPU 7、支持FT的授权 8、在BIOS上启用硬件虚拟化HV FT对虚拟机要求 1、只支持一个vCPU 2、虚拟磁盘必须要后置备预先置零 3、不可以有快照 4、虚拟机不能是克隆的 5、关闭电源管理FT技术是为了解决物理主机层面出现故障,如果是虚拟机上应用出错或者应用底层OS出现故障的时候,这种情形FT是无法解决的