Skip to content

粗心大意的DBA还有SA导致OCR initialization failed accessing OCR device

一个比较大的升级项目,临时发现lv镜像问题,对程序进行Tar包调整相关目录做LV镜像,最后tar解压CRS和DATABASE的程序完成后,发现node1的CRS无法启动了,停止在 /etc/init.d/init.cssd startcheck上,在/tmp目录下找到最新生产的CRS相关的日志发现如下报错:

OCR initialization failed accessing OCR device: PROC-26: Error while accessing the physical storage Operating System error [No such device or address] [6]

通过查找/crs/log/client/xhdb1/alert.log也能够找到相关的日志,要更详细点.到了这一步其中的一个DBA就慌了,又是查RAW权限,又是查系统问题,再确认RAW的权限没问题之后,打算用DD导出OCR的信息进行查看,到这一步被我中止,在加班了将近13个小时情况下大家都已经疲惫了,生怕不小心把数据文件给dd掉了,我便登陆这个节点检测问题,一般碰到此类问题无非几个原因,如下:

1)RAW权限被改,没有读的权限
2)RAW的相关信息被变动过(查看最近的更改时间)
3)RAW所在的VG并未varyonvg
4)bug

按照这上面1个个检测去检测,基本都能找到问题,经过lspv的方式查看了节点1的时候,发现datavg处于inactive状态,问题已经发现了.经过一翻查询发现节点1在重启后HA并没有跟随OS的重启而重启,此时节点2正在运行集群,datavg在节点二上出于并发状态,节点1的HA并未启动也就意味着DATAVG处于OFF状态,最终导致CRS无法读取DATAVG上的OCR信息引起报错。

DD在生产库上,在没有准备的情况下突然要使用,这是对自己和客户的不负责,使用时候需三思。