2024年4月28日发(作者:)
H3C CAS虚拟机暂停问题排查
H3C
CAS虚拟化管理平台通过精简数据中心服务器的数量,整合数据中心IT基础设施资
源,精简IT操作,提高管理效率,达到提高物理资源利用率和降低整体拥有成本的目
的。
版权所有:杭州华三通信技术有限公司
实际使用中,虚拟机在运行过程中会进入到异常的暂停状态从而影响业务的正常运
行,本文对此类问题的排查方法给出详细的说明,供现场工程师参考。 从CAS
E0216开始对虚拟机暂停的图标做了优化,图标的背景色由蓝色变为了更加明显醒
目的黄色,如图1所示。
图1:虚拟机暂停黄色按钮1、虚拟机所在磁盘分区使用率是否100%
虚拟机在运行过程中如果该虚拟机镜像文件所在的磁盘分区的使用率到达100%时,
CAS虚拟化管理平台为了确保该虚拟机的数据的完整性,会主动将该虚拟机置为暂
停状态。 如图2所示的“seafile-云盘”和“win2008-
域控制器dns”两台虚拟机出现了自动暂停的情况。手动给这两台虚拟机执行虚拟机
恢复操作时,任务台提示恢复虚拟机成功,但是虚拟机依旧显示暂停状态。
版权所有:杭州华三通信技术有限公司
图2:虚拟机暂停 此时可以通过SSH软件登录CVK主机的后台,执行“df -
h”命令查看磁盘分区的实际占用情况,如图3所示,发现“/dev/sdc”磁盘分区占用率达
到100%,该分区挂载在“/vms/vStor-
test”目录下,属于共享存储。而虚拟机恰好部署在该共享存储下,从而导致虚拟机状
态异常。
版权所有:杭州华三通信技术有限公司
图3:磁盘分区使用率100%2、释放磁盘空间
当CVK主机下的某一磁盘分区100%导致使用该磁盘分区的虚拟机暂停时,需要释
放磁盘空间,释放方法包括:
1)清理多余的磁盘文件,可以通过CVM管理页面的一键清理功能,清理多余的磁盘
文件。也可以SSH到CVK主机,进入虚拟机磁盘文件所在磁盘分区的挂载目录,比如
目录“/vms/vStor-
test/”,然后在该目录下检查下哪些文件是可以删除的,然后执行删除命令“rm -rf
文件名称”。
2)在CVM管理删除多余的虚拟机,此时在【删除虚拟机】对话框中需要选择“删除虚
拟机的数据存储文件”。但是不要勾选“彻底销毁数据”,因为彻底销毁数据时会对全
部数据执行重置的操作从而使删除较缓慢。
图4:删除虚拟机
清理多余文件释放磁盘空间后,在CVM的管理页面执行虚拟机的恢复操作,使虚拟
机从异常的“暂停”状态恢复到正常“运行”状态。3、虚拟机是否执行备份快照操作
版权所有:杭州华三通信技术有限公司
CAS虚拟化平台会在虚拟机执行备份或快照操作的过程中对虚拟机做短暂的暂停操
作。在此过程中,如果虚拟机的备份和快照任务出现异常,那么就有可能导致处于暂
停状态的虚拟机无法自动恢复到正常的运行状态。
可以在CVM的管理页面的“【云资源->备份策略】”和“【云资源-
>快照策略】”页面下检查是否有配置了定时的备份或者快照策略。备份或者快照策
略页面设置的是备份或者快照的开始时间。 图5是备份策略的配置页面
图5:备份策略 图6是快照策略的配置页面。
版权所有:杭州华三通信技术有限公司
图6:快照策略
当然也可以在【任务台】或者【操作日志】页面检查是否有备份或快照的任务。其中【
任务台】页面的任务信息会在重新登录CVM页面后清空。4、检查虚拟机的备份快照
操作
当进行虚拟机的备份和快照操作时会进行大量的磁盘I/O读写操作,如果磁盘的I/O
性能很低时会导致备份和快照的时间非常长,从而导致虚拟机长时间处于暂停状态
。 可以从两个方面来分析判断磁盘的I/O性能出现异常: 1)在CVK后台执行“free -
m”命令来检查是否大量使用的SWAP分区。如下所示,占用SWAP分区29GB,此时
会验证磁盘I/O的读写性能。说明物理主机的内存不足,需要通过扩容CVK主机的物
理内存。可以重启CVK主机释放SWAP分区中的数据。
版权所有:杭州华三通信技术有限公司
2)在CVK后台执行“qemu-img
check”命令来检查虚拟机镜像文件的磁盘碎片情况。如下图所示,虚拟机的镜像镜
像文件中包含了大量的磁盘碎片,此时会验证磁盘I/O的读写性能。可以对虚拟机执
行“更改数据存储迁移”操作(如果可以虚机关闭时迁移最好),然后再迁回来,达到
磁盘碎片整理的效果。
说明:虚拟机的镜像文件存在磁盘碎片是因为qcow2格式的镜像文件是缓慢增长的,
qcow2在写物理磁盘的过程中还有其他qcow2也在写物理磁盘,就会和其他qcow2文
件进行交替的保存,而不是顺序的保存一个文件,这样就形成了碎片了。
5、检查虚拟机是否执行在线迁移操作
虚拟机在执行在线迁移操作时,如果虚拟机迁移超时会对虚拟机执行暂停操作,并
且在此之后的迁移出现异常,则会使虚拟机处于暂停状态。
检查方式是在【任务台】或者【操作日志】页面检查是否有在线迁移的任务。
图7:虚拟机迁移失败6、检查虚拟机的在线迁移操作
如图8所示的虚拟机执行在线迁移时,迁移方式选择了“更改主机和数据存储”,在C
AS虚拟化管理平台显示迁移操作的进度条卡在99%,虚拟机处于暂停状态。
图8:虚拟机迁移暂停
当出现迁移挂住问题时可以重启Tomcat服务(在CVM主机执行命令“service tomcat8
restart”)或者手动停止迁移动作并恢复虚拟机。操作方法为:
1)在目的CVK主机手动关闭相关进程触发“迁移失败”。 在目的cvk执行“kill -9
虚拟机进程号”命令(使用“ps -ef | grep
版权所有:杭州华三通信技术有限公司
虚拟机名称”命令查看进程号)杀掉目的端qemu进程,这样CAS后台和前台就能够检
测到迁移失败信息从而结束迁移动作。
图8:虚拟机迁移失败 2)恢复虚拟机
如果前台执行不了的话,需要通过后台命令行执行恢复virsh resume vm-name。
执行恢复命令。
查看当前该虚拟机的状态,恢复成了running运行状态。
7、检查服务器硬件
某局点一台CVK主机上的一台虚拟机出现了暂停状态,现场通过关闭电源和启动虚
拟机恢复。通过查看虚拟机的qemu日志,发现存在“KVM: entry failed, hardware error
0x5”信息。
版权所有:杭州华三通信技术有限公司
该问题中的错误码0x5是从CMCS中读出来的,该服务器的CPU是Intel
CPU,通过查询文档,找到错误码对应的含义为“I/O system-management interrupt
(SMI). An SMI arrived immediately after retirement of an I/O instruction and caused an
SMM VM exit (see Section 34.15.2)”,因此该问题和服务器的硬件有关系。
图9:CMCS结构8、检查BGP配置
在CAS虚拟化平台中要求虚拟机安装正版的操作系统,并且使用正规的授权方式。
如果没有使用正版的操作系统或者使用了非正规的激活方式,则有可能导致虚拟机
版权所有:杭州华三通信技术有限公司
在运行的过程中变为暂停状态。
如下是某局点使用了WIN7Activation激活工具激活Windows7操作系统后出现的异
常错误信息。
10、收集信息
如果以上步骤检查完之后还是不能解决问题,可以收集以下信息联系H3C技术支持
热线处理。 (1)记录您所使用的H3C CAS版本 (2)记录具体的故障现象、故障时间
(3)虚拟机暂停的截图信息
(4)收集故障诊断信息,收集方法为:登录CAS的虚拟化管理平台,单击导航树中【系
统管理->操作日志-
>日志文件收集】菜单项,进入日志文件收集页面,选择对应的CVK主机。单击【收集
日志文件】按钮,下载系统生成的日志。10、收集信息
如果以上步骤检查完之后还是不能解决问题,可以收集以下信息联系H3C技术支持
热线处理。 (1)记录您所使用的H3C CAS版本 (2)记录具体的故障现象、故障时间
(3)虚拟机暂停的截图信息
(4)收集故障诊断信息,收集方法为:登录CAS的虚拟化管理平台,单击导航树中【系
版权所有:杭州华三通信技术有限公司
统管理->操作日志-
>日志文件收集】菜单项,进入日志文件收集页面,选择对应的CVK主机。单击【收集
日志文件】按钮,下载系统生成的日志。请拨打热线400-810-0504
版权所有:杭州华三通信技术有限公司
发布者:admin,转转请注明出处:http://www.yc00.com/web/1714314600a2423010.html
评论列表(0条)