Skip to content

Oracle恢复 - 11. page

AIX夏令时导致应用时间对比异常终端处理

前几天一个客户反应系统时间比现实晚一个小时,导致无法刷卡。因为oracle的时间是通过获取系统当前时间

11月6号。

当时我查了下发现是AIX系统开启夏令时导致的

echo $TZ

beist-8TD

————-

在aix 5.3补丁打齐下可以使用命令

chtz beist-8

修改。

或者直接修改/etc/environment

TZ=Beist-8

或者smit 里修改。

—————————————–

在aix6.1系统中推荐使用后面的2种方法修改,修改后建议重启AIX

ORA 600 [4000] 一则

aix p570,oracle 925

首先检查v$datafile_header,发现checkpoint_change#都是一致的。
于是按着一般的当前在线日志文件损坏步骤处理:
增加下列参数至Oracle启动文件:
_allow_resetlogs_corruption=TRUE
_corrupted_rollback_segments=(list of all your rollback segments)
注释掉启动文件中的rollback_segments参数或undo_tablespaces参数
startup mount
recover database until cancel
alter database open resetlogs;
一般情况下,open resetlogs后最容易出现的600号错误为ora-600 [2662]和ora-600 [2256]。这两个错误也相对来说好处理一些,只需要采用10015事件adjust scn号即可。
但是这次我却是碰到了ora-600 [4000]号错误。
Errors in file /home/oracle/app/oracle/admin/test/udump/test_ora_2838638.trc:
ORA-00704: bootstrap process failure
ORA-00704: bootstrap process failure
ORA-00600: internal error code, arguments: [4000], [46], [], [], [], [], [], []
Mon Feb 13 04:01:22 2011
Error 704 happened during db open, shutting down database
USER: terminating instance due to error 704
Instance terminated by USER, pid = 2838638
metalink上对该错误的解释是:
DESCRIPTION:

This has the potential to be a very serious error.

It means that Oracle has tried to find an undo segment number in the
dictionary cache and failed.

ARGUMENTS:
Arg [a] Undo segment number

FUNCTIONALITY:
KERNEL TRANSACTION UNDO

IMPACT:
INSTANCE FAILURE – Instance will not restart
STATEMENT FAILURE
由于一开始_corrupted_rollback_segments里面只是列到_syssmu20$,于是将它列到_syssmu60$。重试后还是报这个错。
增加10513事件,禁止smon进程回滚,结果还是一样。
在600号的Trace文件中有:
ORA-00600: internal error code, arguments: [4000], [46], [], [], [], [], [], []
Current SQL statement for this session:
select ctime, mtime, stime from obj$ where obj# = :1
于是我怀疑会不会是undo$基表中没有46号回滚段的信息?
采用bbed检查undo$表格,发现里面是有这个回滚段的信息。
于是我想这个错误是出现在访问obj$基表上面,也就是说该表格的scn号与系统当前的scn号是不一致的。于是我想偿试修改该块的scn号。依然采用bbed,偿试修改该块的scn号。修改后,结果还是一样的。
于是我想应该是obj$基表上还有一个未提交的事务。于是继续查看trace文件,发现如下信息:
Itl Xid Uba Flag Lck Scn/Fsc
0x01 0x002e.025.00005b2c 0x00800f78.080c.01 –U- 1 fsc 0x0000.c5b527cf
data_block_dump,data header at 0x700000001f6e044
===============
tsiz: 0x1fb8
hsiz: 0xea
pbl: 0x700000001f6e044
bdba: 0x0040007a
76543210
flag=——–
很明显,是有一个未提交的事务,用bbed修改该事务的状态,将该事务改成提交状态。
首先找到itl信息:find /x 00005b2c,找到flag状态,现在其状态是20,也就是未提交,将之修改为80(提交状态),并修改checkval。
之后去掉所有隐含参数,正常启动数据库,发现后台报出了ora-600[2662]错误。哈哈,事情至此就好办了,采用10015 adjust scn号,正常启动数据库:
Mon Feb 14 15:47:23 2011
Completed: ALTER DATABASE OPEN
Mon Feb 14 15:47:23 2011
Fatal internal error happened while SMON was doing active transaction recovery.
Mon Feb 14 15:47:23 2011
Errors in file oracle/admin/test/bdump/test_smon_2293872.trc:
ORA-00600: internal error code, arguments: [ktpridestroy2], []
SMON: terminating instance due to error 600
Instance terminated by SMON, pid = 2293872
从这块日志可以看出数据库正常启动后,马上因为smon回滚又导致了实例宕下来。
增加10513事件,启动数据库,一切正常。
想drop tablespce undotbs1,但是报出59号回滚段还有active事务无法删除。
于是增加_corrupted_rollback_segments参数,将数据库启来,新建一个回滚表空间,将原来的回滚表空间重建后,一切正常。

Block结构:进制之间的关系

首先先复习下 二进制,八进制,十六进制和十进制间的转换(针对非计算机科班)

二进制数转换为十进制数

二进制数第0位的权值是2的0次方,第1位的权值是2的1次方……

所以,设有一个二进制数:0110 0100,转换为10进制为:

下面是竖式:

 

0110 0100 换算成 十进制

 

第0位 0 * 20 = 0

第1位 0 * 21 = 0

第2位 1 * 22 = 4

第3位 0 * 23 = 0

第4位 0 * 24 = 0

第5位 1 * 25 = 32

第6位 1 * 26 = 64

第7位 0 * 27 = 0 +

—————————

100

 

用横式计算为:

0 * 20 + 0 * 21 + 1 * 22 + 1 * 23 + 0 * 24 + 1 * 25 + 1 * 26 + 0 * 27 = 100

 

0乘以多少都是0,所以我们也可以直接跳过值为0的位:

1 * 22 + 1 * 23 + 1 * 25 + 1 * 26 = 100

 

八进制数转换为十进制数
八进制就是逢8进1。

八进制数采用 0~7这八数来表达一个数。

八进制数第0位的权值为8的0次方,第1位权值为8的1次方,第2位权值为8的2次方……

所以,设有一个八进制数:1507,转换为十进制为:

用竖式表示:

 

1507换算成十进制。

 

第0位 7 * 80 = 7

第1位 0 * 81 = 0

第2位 5 * 82 = 320

第3位 1 * 83 = 512 +

————————–

839

同样,我们也可以用横式直接计算:

7 * 80 + 0 * 81 + 5 * 82 + 1 * 83 = 839

 

结果是,八进制数 1507 转换成十进制数为 839

 

八进制数的表达方法
C,C++语言中,如何表达一个八进制数呢?如果这个数是 876,我们可以断定它不是八进制数,因为八进制数中不可能出7以上的阿拉伯数字。但如果这个数是123、是567,或12345670,那么它是八进制数还是10进制数,都有可能。

所以,C,C++规定,一个数如果要指明它采用八进制,必须在它前面加上一个0,如:123是十进制,但0123则表示采用八进制。这就是八进制数在C、C++中的表达方法。

由于C和C++都没有提供二进制数的表达方法,所以,这里所学的八进制是我们学习的,CtC++语言的数值表达的第二种进制法。

现在,对于同样一个数,比如是100,我们在代码中可以用平常的10进制表达,例如在变量初始化时:

 

int a = 100;

我们也可以这样写:

int a = 0144; //0144是八进制的100;一个10进制数如何转成8进制,我们后面会学到。

 

千万记住,用八进制表达时,你不能少了最前的那个0。否则计算机会通通当成10进制。不过,有一个地方使用八进制数时,却不能使用加0,那就是我们前面学的用于表达字符的“转义符”表达法。

 

八进制数在转义符中的使用
我们学过用一个转义符”加上一个特殊字母来表示某个字符的方法,如:’n’表示换行(line),而’t’表示Tab字符,”’则表示单引号。今天我们又学习了一种使用转义符的方法:转义符”后面接一个八进制数,用于表示ASCII码等于该值的字符。

比如,查一下第5章中的ASCII码表,我们找到问号字符(?)的ASCII值是63,那么我们可以把它转换为八进值:77,然后用 ’77’来表示’?’。由于是八进制,所以本应写成 ‘77’,但因为C,C++规定不允许使用斜杠加10进制数来表示字符,所以这里的0可以不写。

事实上我们很少在实际编程中非要用转义符加八进制数来表示一个字符,所以,6.2.4小节的内容,大家仅仅了解就行。

 

十六进制数转换成十进制数
2进制,用两个阿拉伯数字:0、1;

8进制,用八个阿拉伯数字:0、1、2、3、4、5、6、7;

10进制,用十个阿拉伯数字:0到9;

16进制,用十六个阿拉伯数字……等等,阿拉伯人或说是印度人,只发明了10个数字啊?

 

16进制就是逢16进1,但我们只有0~9这十个数字,所以我们用A,B,C,D,E,F这五个字母来分别表示10,11,12,13,14,15。字母不区分大小写。

十六进制数的第0位的权值为16的0次方,第1位的权值为16的1次方,第2位的权值为16的2次方……

所以,在第N(N从0开始)位上,如果是是数 X (X 大于等于0,并且X小于等于 15,即:F)表示的大小为 X * 16的N次方。

假设有一个十六进数 2AF5, 那么如何换算成10进制呢?

 

用竖式计算:

 

2AF5换算成10进制:

 

第0位: 5 * 160 = 5

第1位: F * 161 = 240

第2位: A * 162 = 2560

第3位: 2 * 163 = 8192 +

————————————-

10997

直接计算就是:

5 * 160 + F * 161 + A * 162 + 2 * 163 = 10997

(别忘了,在上面的计算中,A表示10,而F表示15)

 

现在可以看出,所有进制换算成10进制,关键在于各自的权值不同。

假设有人问你,十进数 1234 为什么是 一千二百三十四?你尽可以给他这么一个算式:

1234 = 1 * 103 + 2 * 102 + 3 * 101 + 4 * 100

 

十六进制数的表达方法
如果不使用特殊的书写形式,16进制数也会和10进制相混。随便一个数:9876,就看不出它是16进制或10进制。

C,C++规定,16进制数必须以 0x开头。比如 0x1表示一个16进制数。而1则表示一个十进制。另外如:0xff,0xFF,0X102A,等等。其中的x也也不区分大小写。(注意:0x中的0是数字0,而不是字母O)

以下是一些用法示例:

 

int a = 0x100F;

int b = 0x70 + a;

 

至此,我们学完了所有进制:10进制,8进制,16进制数的表达方式。最后一点很重要,C/C++中,10进制数有正负之分,比如12表示正12,而-12表示负12,;但8进制和16进制只能用达无符号的正整数,如果你在代码中里:-078,或者写:-0xF2,C,C++并不把它当成一个负数。

 

十六进制数在转义符中的使用
 

转义符也可以接一个16进制数来表示一个字符。如在6.2.4小节中说的 ‘?’ 字符,可以有以下表达方式:

 

‘?’ //直接输入字符

’77’ //用八进制,此时可以省略开头的0

‘x3F’ //用十六进制

 

同样,这一小节只用于了解。除了空字符用八进制数 ‘’ 表示以外,我们很少用后两种方法表示一个字符。

 

十进制数转换到二、八、十六进制数
10进制数转换为2进制数
 

给你一个十进制,比如:6,如果将它转换成二进制数呢?

 

10进制数转换成二进制数,这是一个连续除2的过程:

把要转换的数,除以2,得到商和余数,

将商继续除以2,直到商为0。最后将所有余数倒序排列,得到数就是转换结果。

 

听起来有些糊涂?我们结合例子来说明。比如要转换6为二进制数。

 

“把要转换的数,除以2,得到商和余数”。

那么:

要转换的数是6, 6 ÷ 2,得到商是3,余数是0。 (不要告诉我你不会计算6÷3!)

“将商继续除以2,直到商为0……”

现在商是3,还不是0,所以继续除以2。

那就: 3 ÷ 2, 得到商是1,余数是1。

 

“将商继续除以2,直到商为0……”

现在商是1,还不是0,所以继续除以2。

那就: 1 ÷ 2, 得到商是0,余数是1 (拿笔纸算一下,1÷2是不是商0余1!)

 

“将商继续除以2,直到商为0……最后将所有余数倒序排列”

好极!现在商已经是0。

我们三次计算依次得到余数分别是:0、1、1,将所有余数倒序排列,那就是:110了!

 

6转换成二进制,结果是110。

 

把上面的一段改成用表格来表示,则为:

被除数 计算过程 商 余数
6 6/2 3 0
3 3/2 1 1
1 1/2 0 1

(在计算机中,÷用 / 来表示)

 

经过这么个过程,基本对进制间的转换有一定的了解。

这里补充一个64进制 的基础知识:

A-Z < ==> 0-25
a-z < ==> 26-51
0-9 < ==> 52-61
+ / < ==> 62-63

Rac备份概念

提供给公司开发人员的Rac的备份概念:

1.ocr的备份
ocrconfig -help | grep port

-export [-s online] – Export cluster register contents to a file
-import
– Import cluster registry contents from a file
从这部分可以知道 ocr的备份方式是以类似exp/imp的方式进行导出操作(也可以使用dd一般首选oracle的备份方式)

这里测测试:

ORACLE@node1:/oracle/product/10.2.0/crs/log/node1/racg>ocrcheck
Status of Oracle Cluster Registry is as follows :
Version : 2
Total space (kbytes) : 838552
Used space (kbytes) : 3812
Available space (kbytes) : 834740
ID : 1008840117
Device/File Name : /dev/raw/raw3
Device/File integrity check succeeded

Device/File not configured

Cluster registry integrity check succeeded

以上信息可以得到这里的OCR是放在/de/raw/raw3

备份方式:

ocrconfig -export /oracle/ocr_20110420.bak

[root@node1 oracle]# ocrconfig -showbackup

node1 2011/04/19 14:42:20 /oracle/product/10.2.0/crs/cdata/crs

node1 2011/04/19 10:42:20 /oracle/product/10.2.0/crs/cdata/crs

node1 2011/04/19 06:42:20 /oracle/product/10.2.0/crs/cdata/crs

node2 2011/04/18 14:06:02 /oracle/product/10.2.0/crs/cdata/crs

node2 2011/04/15 04:09:45 /oracle/product/10.2.0/crs/cdata/crs

恢复过程将会很简单,通过 ocrconfig -restore 就可以恢复这里的物理备份。
通过strings可以将其中的字符串取出来看一个印象:
strings /oracle/ocr_20110420.bak |sort -u

2.voting disk备份

voting的备份以dd的方式为主

[root@node1 oracle]# clear

[root@node1 oracle]# crsctl query css votedisk
0. 0 /dev/raw/raw2

located 1 votedisk(s).

通过 crsctl query css votedisk
查询到voting所在的raw

然后通过dd备份
[root@node1 oracle]# dd if=/dev/raw/raw2 of=/oracle/voting_20110420.bak
x417760+0 records in
417760+0 records out
213893120 bytes (214 MB) copied, 126.633 seconds, 1.7 MB/s
当需要恢复时,通过dd进行恢复即可。

3。Rac的数据备份

一:归档日志放在共享存储的情况
在这类情况备份只要执行以下的命令就可以成功全备

run{
allocate channel ch1 device type disk;
backup
#incremental level 1 comulative
database;
release channel ch1;

allocate channel ch1 device type disk;
backup archivelog all delete input;
release channel ch1;

allocate channel ch1 device type disk;
backup format ‘/oracle/ctl_%U_%T_%D’ current controlfile;
release channel ch1}

二:归档日志放在2个节点的情况

run{
allocate channel ch1 device type disk connect sys/oracle@ldrac1;
allocate channel ch2 device type disk connect sys/oracle@ldrac2;
backup
#incremental level 1 comulative
database;
release channel ch1;
release channel ch2;

allocate channel ch1 device type disk connect sys/oracle@ldrac1;
allocate channel ch2 device type disk connect sys/oracle@ldrac2;
backup archivelog all delete input;
release channel ch1;
release channel ch2;

allocate channel ch1 device type disk connect sys/oracle@ldrac1;
allocate channel ch2 device type disk connect sys/oracle@ldrac2;
backup format ‘/oracle/ctl_%U_%T_%D’ current controlfile;
release channel ch1;
release channel ch2;}

注意的地方:
集群的数据备份 根据 集群本身的环境而定
所以在确认一个集群环境的时候注意先查看这个集群的存储规划和存储选型