一次VDP故障记录
现有vsphere5.5环境,300+ VM ,不少重要业务需要备份,之前部署了三个节点的VDP来备份这些VM,由于标准版VDP有存储容量上的限制(好像可用3T),现在的备份任务只保存三天,正好测试备份产品,准备用测试产品备份现有VDP的备份计划,今天一看vcenter事件,vdp3告警,再往下看,两三天的任务都没正常备份了,坑以后再说,开始说故障处理。
故障发现
==vcenter 任务事件告警信息== 检查点过期?马上看前几天的事件,发现近几天的备份都未成功, 登录vsphere-web-client 看看vdp上的事件(慢)
VDP的报告截图
第一反应,完整性检查,但是这不应该需要人员干预阿,But,看以用容量, 2% 再看下最后成功备份的日期,备份保留时间只有三天,第一反应是三天备份失败,备份都被删除了,但是这不科学的阿,
这里说下,最好的处理办法是现在重新部署一个VDP来接管之前的备份任务。 这里抱着试试看的心态来搞点事情,(结果通宵了- -! )
顺便证明一波国内某知名搜索引擎有多没用 使用一波搜索引擎,给的答案简直就是所问非所答,只有有关键字就往上靠,搜vdp故障竟让能搜出安装vcenter的文档,(呵呵呵)
还有什么vmsky阿,太不活跃,看帖子跟学历史似的, gg一波,
处理思路和流程
下面说下我处理的思路和流程
- 开始新的备份(反正也没备份集了,这最简单,)
- 报错说完整性检查状态过时,那就检查一波完整性,那么问题来了,我都没数据了 完整性检查毛线
一步一步来
- 打开web-client ,备份试试,VDP龟速,等一年 终于出了连接备份
- 点了,等着
- 报错了, 时间不同步,(这里说下,并不是VDP的始终不准确,而是vcenter的同步频率周期太长,)这就去同步
- 继续等
- 等可以点备份了,备份试下,
- 很好,不让备份,报错内容“vdp应用装置处于一下状态时无法备份 Admin“
- VDP状态为Admin时不让开始备份任务,
- 抱着试试看的心态,我愚蠢的去完整性检查
- 这回厉害了,等半小时报错,这个故障现象一点信息量都没有(“暂时无法检查,请稍后再试”)
- 这里本菜鸡懵逼了,开启搜索模式,这里安利一个比官方kb 国内某论坛强一万倍的Communities(https://communities.vmware.com) 首先登陆vdp的shell 先查看下服务的状态,步骤如下:
|
|
输出如下
|
|
这里看到gsan状态是degraded 这个应该就是状态一直为admin的原因吧 重启下这个服务,然后启动所有服务。
|
|
再看状态为up了,而且我一直看着web-client 突然看到已用容量为90%多,(可能是幻觉吧) 服务状态对了,我再去完整性检查试下,点完之后又是等 这时候在看下服务的状态,又变回去了,我懵了,看着这些VDP报告,估计手动备份肯定也是要gg的 我去看log, /var/log/message 没有什么有价值的信息, mail 也没什么信息, /usr/local/avamar/var/log/ 下的日志,也没什么有用的信息
顺手执行了条 df -lh (不是rm -rf / , chmod -R 000 /)
数据盘全满 那么问题来了,为什么在WEB 上没有显示出来了,而且已用空间2% 备份点也一个都没有, 现在的思路
- vdp3与vcenter的认证出了问题,
- vdp3的数据过大导致显示为0
- BUG
现在解决这个问题是矛盾的, 首先,正常来如果我的data01 data02 data03 没空间, 删除步骤或者清理步骤,应该是登录web-client 然后完整性检查,或者是去web上删除备份点, 我这么直接rm了不知道ok不ok, 查找kb和社区,给出的答案就是在shell下强制检查,我无法检查,报错,(有可能是空间不够我做整合或者检查的) 还有解决办法是联系技术支持,
好吧不纠结了, 就这样吧 一会儿还要上班呢, 明天来决定是rm 还是联系技术支持来搞,还是直接重新部署vdp、 睡了
August 4, 2017 2:53 AM