Exadata Troubleshooting
Download
Report
Transcript Exadata Troubleshooting
Exadata Troubleshooting
Last updated – Jun 26, 2014
GTPLUS 김 종 인
주제
문제 정의
문제 진단툴
2
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
어디를 살펴볼것 인가?
문제 정의
– 성능
– 에러
– Crash
– Hang
4
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
중요한 MOS Notes
888828.1
– Exadata 환경의 패치와 최신이슈의 가장 중요한 참고문서
environment
– 다른 연관 MOS 문서들의 참조도 포함
1070954.1 - exachk
– Best Practices 를 만족시키기 위한 DB에서 IB switch 까지 이르는 모든것을
체크해 준다.
– Asrexachk (1450112.1)
Snmp 가 올바르게 설정되었는지 체크해 준다.
5
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
변경된 것이 있는가?
최근에 변경된 것의 여부
– 새로운 패치
– 셀 또는 DB 노드의 업그레이드
– 네트워크 변경
–
IORM or DBRM 의 사용
시스템에서 최근에 환경에 변경된 히스토리를 찾아볼것
(.bash_history)
6
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
Sundiag
/opt/oracle.SupportTools/sundiag.sh 은 DB 노드와 셀노드의
표준툴이다.
The sundiag tool 은 cellcli 명령을 통해 ILOM snapshots
& Megacli raid card logs 을 포함한 많은 정보들을 수집해준다.
failure or reboot로 인한 DB 노드,셀노드 단절시 sundiag 를
수행하여야 한다.
7
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
Sundiag
Sundiag 로 수집되는 추가정보
– oswatcher
– dmesg
– /var/log/messages
8
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
ILOM (Integrated Light Out Manager)
콘솔 History
– ipmitool sunoem cli "show /SP/console/history”
– ipmitool -I lanplus -H celadm01-ilom -U root -P welcome1 sunoem cli
"show /SP/console/history"
ILOM 이벤트
– ipmitool -c sunoem cli "show -script /SP/logs/event/list”
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
"show -script /SP/logs/event/list”
9
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
ILOM
ipmitool -I lanplus –H celadm01-ilom -U root -P
welcome1 sunoem cli "show faulty”
– 하드웨어 이슈가 있다면 정보를 보여준다
하드웨어가 다운되어 있고 sundiag를 수행하지 못하는 상황이라면
ILOM snapshot 을 뜨거나 remote snapshot 을 수행
10
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
ILOM 스냅샷
ILOM 에서 스냅샷을 수집하여 호스트로 입력
– ILOM=cell01-ilom HOST=db01
– ipmitool sunoem cli "set /SP/diag/snapshot dataset=normal" -H $ILOM
-U root –P welcome1
– ipmitool sunoem cli "set /SP/diag/snapshot dump_uri=sftp://
root:welcome1@$HOST/tmp" -H $ILOM -U root -P welcome1
– ipmitool sunoem cli "show /SP/diag/snapshot" -H $ILOM -U root -P
welcome1
11
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
ILOM 스냅샷
스냅샷 명령을 수행했으면 아래와 같이 진행되는 것을 확인가능
set /SP/diag/snapshot dataset=normal
set /SP/diag/snapshot dump_uri=sftp://root:[email protected]/tmp
cd /SP/diag/snapshot
show
Properties:
dataset = normal
dump_uri = (Cannot show property)
encrypt_output = false
** result = Running **
지정한 위치에 파일이 있음을 확인가능
– cel07-c_10.245.20.169_2013-09-20T16-51-21.zip
12
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
ILOM 스냅샷
ILOM snapshots 은 콘솔 히스토리,이벤트 리스트, 하드웨어
Fault 등을 포함
ILOM 스냅샷은 또한 하드웨어 Fault 와 노드 리부팅을
발생시킨 원인의 분석정보로서 중요한 데이터이다.
13
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
DB노드 성능
OSWatcher 체크
– 메모리 사용은 어떠한가?
– CPU 사용은 어떠한가?
– IO 는 어떠한가?
ExaWatcher/OSWatcher & 성능보고서를 통해 성능
저하를 가져오는 범위를 좁힐수 있다.
14
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
RAC 인스턴스 또는 노드 축출
$GI_HOME/bin/diagcollect.pl
– 로그와 코어파일 수집
--crs 옵션,압축화일의 크기를 줄일수 있음 (default –all)
--aftertime –beforetime 옵션으로 압축화일의 크기를 줄일수 있음
OCR & vote disks 접근가능여부
– ocrcheck
– crsctl query css votedisk
15
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
RAC 인스턴스 또는 노드 축출
Exa/OSWatcher 수집은 축출의 경우에 아주 중요한
분석자료로 이용될수 있다.
전체 디스크의 사용률 모니터링
다음과 같은 Exadata Diagnostic collection 툴들도 로그와 트레이스
파일 수집에 도움이 될수 있다.
– Diagnostic Assistant (201804.1)
– Trace File Analyzer (1513912.1)
17
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
DB 노드 Hung
노드 리부팅전에 ILOM 스냅샵 수집을 강력히 권고함
– 리부팅은 ILOM 콘솔 히스토리를 overwrite 할수도 있다.
MOS 1352805.1 을 참고하여 hung된 노드를 리부팅하거나 SysRq
실행할것
Attempting to gracefully reboot hung Exadata cell or database node (문서 ID
1352805.1)
16
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
DB Hang 또는 성능이슈
항상 Alertlog화일을 확인해보고 ORA-600/7445 에러가 있는지
살펴보고 I/O 에러 또는 기타 이슈원인에 대해 검토해 본다.
18
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
DB Hang 또는 성능이슈
Hung 또는 성능이슈 관련 성능리포트를 수집할 필요가 있다.
– ASH
– AWR
– ADDM
– EXA/OSWatcher
19
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
DB Hang 또는 성능이슈
DB가 Hung 이라면?
SQL> oradebug –g all hanganalyze 1
SQL> oradebug –g all systemstate 258
Hang 분석,성능과 로그수집을 위해 RDA를 사용할 수도
있다.
DB 성능이 저하된다면 ASM Disk 쪽을 살펴볼 필요도 있다.
20
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
ASM 디스크
v$asm_disk 조회시 offline disk 가 있는지
v$asm_operation 조회시 리밸런싱 작업이 있는지
셀이 offline 상태라면 v$asm_operation 조회시 resync 가
일어나고 있는지 (list griddisk checks asm)
디스크 들이 보이는지 확인 (kernel files OSM disk)
– kfod asm_diskstring='o/*/*' disks=all op=disk
21
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
ASM 디스크
/etc/oracle/cell/network-config/cellip.ora
– 셀에서 디스크는 보이는데 ASM에서 소실
–
22
cellip.ora 편집 (with caution)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
엑사데이타에서 성능 메트릭
메트릭은 다음의 객체들과 연관이 있다. (cell, cell disk, etc.).
모든 이용가능한 메트릭은 METRICDEFINITION에 사전정의.
–
METRICDEFINITION objects describe the metrics.
METRICCURRENT 는 현재 값의 Set 이다.
METRICHISTORY 는 과거 메트릭값의 모음이다.
THRESHOLD 는 특정한 메트릭에 기초한 alert을 발생시키는 rule 이다.
23
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
성능 메트릭
24
메트릭의 분류:
- Cell metrics – CPU 사용률, 네트워크 같은 Cell에 대한 정보
- Cell disk metrics – 셀디스크로 부터 읽은 large block 정보와 같은 셀디스크에
대한 정보
- Grid disk metrics - 그리드디스크로 부터 읽은 large block 정보와 같은 그리드
디스크에 대한 정보
-
Host interconnection metrics – 셀에 엑세스 하는 호스트에 대한 I/O 전송정보
-
IORM metrics – Category, Database and Consumer Group metrics. IORM에 대한
정보제공
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
셀 디스크 메트릭 예)
25
Number of requests
CD_IO_RQ_R_SM
C
IO req
to Read Small Blocks
CD_IO_RQ_R_SM_SEC
R
IO/sec
Number of requests
CD_IO_RQ_W_SM
C
IO req
to Write Small Blocks
CD_IO_RQ_W_SM_SEC
R
IO/sec
Number of [Mega]bytes
CD_IO_BY_W_LG
C
Mb
written in Large Blocks
CD_IO_BY_W_LG_SEC
R
Mb/sec
IO latency for Read
CD_IO_TM_R_SM_RQ
R
us/req small Blocks
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
IORM: DB 레벨 메트릭 예)
Number of requests
DB_IO_RQ _SM
C
IO req
for Small Blocks
DB_IO_RQ_SM_SEC
R
IO/sec
Number of requests
DB_IO_RQ_LG
C
IO req
for Large Blocks
DB_IO_RQ_LG_SEC
R
IO/sec
IORM wait time for
DB_IO_WT_SM
C
us
read/write Small Blocks
DB_IO_WT_SM_RQ
R
us/req
DB_IO_WT_LG
C
us
DB_IO_WT_R_LG_ RQ
R
us/req
IORM wait time for
read/write Small Blocks
26
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
셀 메트릭 데이터
셀 메트릭 정보 수집 명령어
– cellcli -e list flashcachecontent attributes all|sed -e 's/^[ \t]*//' -e 's/\t/,/g'
-e 's/ //g' -e 's/$/,$(date '+%Y%m%d%H%M')/' -e 's/^/${celliphost},/'”
– list metriccurrent CD_IO_TM_W_SM_RQ where metricObjectName
like 'FD.*'
– dcli 로 여러셀 수행가능
27
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
셀 트러블슈팅
Imageinfo
– 어떤 버전으로 운영되고 있는 확인가능
List alerthistory
– 셀 에러 또는 에러 이력
$CELLTRACE and $LOG_HOME
– alert history에 없는 추가적인 에러
– alert.log
– ms-odl.trc
28
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
셀 로그
$CELLTRACE/alert.log file 에서 ora-600/7445 or
크리티컬 로그 확인
cellcli list alerthistory
– $CELLTRACE/alert.log 에서도 내역확인 가능
29
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
셀 로그
LIST ALERTHISTORY WHERE begintime > ’Sep 1,
2013 11:37:00 AM PDT‘
– 39 2013-09-09T12:26:53-07:00 "ORA-07445: exception encountered:
core dump “
ADR_BASE
– adrci 는 셀로그로도 작동
– adrci 의 위치는 $OSS_BIN/bin
30
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
Cellcli 로그
Incident package information 은 아래와 같이 확인가능
– celldiag.pl -adr /tmp/adrci -aftertime 201105300000 -beforetime
201106200000 -level all
31
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
셀 로그
/var/log/oracle/deploy/cellcli.lst.0
– Lists 명령어는 셀환경의 변경 또는 수정 확인 가능.
– 최근 셀에 변경이 있었다면 유용할수 있음
모든 Cell 에서 크리티컬 로그 수집을 위해 sundiag 수행
– 배터리, RAID 카드, 하드디스크, 플래쉬디스크 또는 I/O 이슈
– cell cli 명령이ㅣ 여전히 health dis로 나타난다면 추가적인 정보수집 가능
disks
32
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
Cellcli 명령어
list griddisk attributes name,status
list celldisk attributes name, status
– Proactive failure
– Not present
– Confine inactive
list physicaldisk
– warning – poor performance
33
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
Cell 진단
/opt/oracle.cellos/iso/lastGoodConfig/cell/cellsrv/deploy/
config/cellinit.ora
– 셀업그레이드 후 또는 네트워크 변경, 셀 서비스가 기동되지 않을때
해당 파일에서 정확한 IP 정보가 들어가 있는지 체크할것.
– 네트워크 변경작업은 ‘ipconf’ 를 이용하여야 하며, 그렇지 않은 경우
네트워크 변경내역이 업그레이드 작업시에 반영되지 않을 수 있다.
/opt/oracle.cellos/cell.conf
– 셀 업그레이드 후에 셀 IP 정보가 저장되는 파일
34
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
Cell 진단
lsof 를 이용하는 것도 trobleshooting에 도움이 될수 있다.
– lsof –a +L1 /u01 or lsof +L1
unlinked open files의 사이즈 문제해결해 도움.
ex) df 100% but du –sk does not match
– lsof –i :161, lsof –i tcp/udp, netstat –an, -a or -lnp
누가 어떤 Network port 를 사용하고 있는지 확인가능
35
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
셀 부팅 이슈
셀 부팅시 grub 화면이 나타나지 않고 커서만 반짝일 경우
USB의 손상등 일수 있다.
엑사데이타의 부팅은 기본으로 USB 이다.
디스크로 부터 부팅을 시도해 볼수 있다.
– ipmitool chassis bootdev disk
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
”set /HOST boot_device=disk”
36
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
네트워크 변경
잘못된 서브넷마스크는 통신장애를 유발할수 있다.
IP tables 변경은 issue 을 일으킬수 있다.
GI/DB/Cell 은 RDS 을 이용하지만 여전히 TCP 통신을 수행
한다.
37
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
인피니밴드 스위치
소프트웨어 & 펌웨어 버전
– “Version” on ibswitch shows current rev
rpm –qa|grep ofa 현재 ofa stack
38
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
인피니밴드 스위치 Troubleshooting
물리 & 링크 레이어 health check
– Listlinkup
– Ibdiagnet
– Ibnetdiscover
– Iblinkinfo.pl
서브넷 매니저 상태
– Sminfo
– Ibdiagnet –r (look for SM section)
39
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
인피니밴드 스위치 Troubleshooting
토폴로지 확인
– Verifytopology, infinicheck
– 스위치간 링크
– Fat Tree connection compliance
Layer 3 연결 검증
– IP over IB
– Subnet Masks
– Multicast (saquery)
40
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
네트워크 모니터링 툴
ibdiagnet
– Options: -ls, -lw, -r, -pc, -p
iblinkinfo.pl
– Options: -S, -P
perfquery
– Options: -r, -R, -x
Some options apply to switches only
41
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
네트워크 모니터링 툴
smpquery
– Options: nodeinfo <lid>, NodeDesc <lid>, NodeInfo <lid>
ibswitches
– 현재 연결된 IB 스위치 보기
ibhosts
– IB환경에 연결된 모든 호스트 보기
42
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
Ping 이 안될시
subnets 확인 (ifconfig)
– IP 주소가 셋업이 잘 되어있는지
local port 확인 (ibstat)
routing table 확인 (netstat)
link health 확인(ibdiagnet)
OpenSM 상태확인
Remote 에서 확인 반복수행
43
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
NM2 스위치가 네트웍이 안될시
NM2 management 에서 호스트로 ping 여부
Host 로 ssh 가 되는지
USB 시리얼 콘솔에서
외부포트 링크가 UP 인가?
내부포트 링크가 UP 인가?
– Ethtool eth0
이전 부팅환경의 정보를 가지고 있는지
44
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
IB 환경 검증
적어도 1개의 마스터 또는 활성화된 서브넷 매니저가
있는지
IB 호스트에 구동되어야 하는 서버넷 매니저의 유무
링크 health state (ibdiagnet, ibstat)
IP 주소와 서브넷 마스크
45
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
IB 환경 검증
정확한 토폴로지와 케이블링
중요 서비스가 구동중인지
정확한 펌웨어 버전
46
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
다른 검증요소
ping 작동여부
ARP 작동여부working
default gateway 와 통신여부reachable
링크의 UP 여부
IP 주소가 올바르게 할당 되었는지
서버가 listening 상태인지
패킷이 얼마나 멀리가고 그후에 소멸되는지
47
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
요약
현재 패치버전을 정확히 확인한다.
Exachk 을 자주 수행하는 것은 환경을 유효화하고 이전수행
환경과 비교하는것도 도움이 될수 있다.
sundiag, TFA, DA or diagget 등과 같은 툴들은 복잡한 환경하
에서 접속수집을 원할히 할수 있게 해준다.
48
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
요약
하드웨어 장애시 메시지가 전송되도록 셀 alerting 이
제대로 구성되었는지 확인
간단히 확인가능한 요소부터 제거하여 장애유발 원인
파악을 위한 범위축소
로그확인 재확인
49
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template
요약
여러 개의 노드에 걸쳐 로그를 수집하는데 도움이 된다.
– TFA (Trace File Analyzer)
/u01/app/11.2.0.4/grid/tfa/exa1/tfa_home/bin# ./tfactl diagcollect
– DA
50
Copyright © 2013, Oracle and/or its affiliates. All rights reserved.
Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template