语言
<< 返回文章列表

ORA-00600 kcratr1_lostwrt 原理分析

2016年12月22日
盖国强
2439

客户的一个数据库因为断电遇到了ORA-600 kcratr1_lostwrt错误,数据库无法启动。
错误信息类似:

ksedmp: internal or fatal error
ORA-00600: internal error code, arguments: [kcratr1_lostwrt], [], [], [], [], [], [], []
Current SQL statement for this session:
alter database open

这个错误不难解决,但是其具体成因有点意思。
Metalink对这个错误的解释只有一句关键:

When an instance is restarted following an instance crash, Oracle carries out some checks against the last block that was written to disk prior to the instance crash.
If Oracle finds an old block, then this suggests a lost write and the error is raised.

这句话是说,当实例崩溃之后重新启动,Oracle会去检查崩溃前最后一个写出的数据块,通过控制文件校验其是否一致,如果这个块是『旧』的,则说明最后的写操作丢失了。

这是一个非常快捷巧妙地判断,如果有写丢失,自然必须引入恢复。

在跟踪文件中记录了详细的信息:

Last BWR afn: 6 rdba: 0x18f9590(blk 1021328) ver: 0x0001.5c21fd6e.01 flg: 0x04
Disk version: 0x0001.5c1ec4f0.04 flag: 0x04


提示说,控制文件记录的最后一次写的数据块是file 6 block 1021328,SCN版本为:5c21fd6e,而数据文件上记录的SCN则是5c1ec4f0,后者更旧,小于前者,这说明丢失了写操作。

那能否恢复呢?跟踪文件里还会记录这样的信息:

Thread checkpoint rba:0x00dfeb.00000002.0010 scn:0x0001.5c1ee5b7
On-disk rba:0x00dfeb.0001161f.0000 scn:0x0001.5c2266d6


线程检查点的SCN为5c1ee5b7,而On-Disk Rba的SCN为5c2266d6,完全可以推演超过5c21fd6e,可以恢复。

所以这样的问题:

SQL>startup mount;
SQL>recover database;
SQL>alter database open;


一般就可以完成恢复了,如果不幸的,你的On-Disk Rba不足以恢复丢失的写操作,则问题将严重了。