Transcript 장애Case

Case Study
2003.3.18
강사 :윤 부현 과장
HPS/ISO/MC
1. 장애 유형 분석
Agenda
2. Korea 장애 유형 분석
3. Each Case 사례
4. Q&A
원
인
CPU #1 Fail로 인하여,
Oracle Core file 생성
증
상
RP7400 cpu #1 Fail
해 결 방 안
해당 CPU 교환
원
인
System전원의 Ground와
Neutral이 바뀌어 있슴
증
상
Network 안되면서 Hub측
Port가 녹아 내림
해 결 방 안
전원 문제 해결
원
인
라이브러리 파일 및
PATH에 문제가 있슴
증
상
Patch 도중 kernel 컴파일하
면서 Error가 발생함
해 결 방 안
라이브러리 파일 복원 및
PATH 수정
원
인
Cell #2 1번 CPU Fault
증
상
RP8400 System Panic
해 결 방 안
해당 Cell CPU Replace &
O/S Reinstall
원
인
/dev/vg00밑에 모든
File이 사라짐
증
상
SuperDome Booting Fail
해 결 방 안
Mknod 명령어로 File 생성
원
증
상
XP256 전산실 작업 중 BCJ
를 제거한 후 BC가 initial
copy가 수행됨
인
DATA의 신뢰성을
보장하기위해 Firmware
Level에서 처리되는
정상적인 Mode
해 결 방 안
현재 Lab에서 검토 및 해결
진행 중
원
인
/etc/ioconfig와
/stand/ioconfig의 불일치
증
상
BOOTING을 한 후에 DISK
DEVICE FILE들이 바뀜
해 결 방 안
해당 파일을 restore함
원
증
상
인
FAN에 전원을 공급해 주는
48V Power Board의
Capacitor 불량
V2600의 Fan Fail이 발생
Fan 및 Fuse교체 후에도 일
정 시간 후 같은 문제 발생
해결방안
48V Power Board 교체
원 인
Controller 불량 및 Bug
증
상
FC60의 Controller Path가
ioscan에서 안보임
Controller 교체 후 LUN0
를 제외한 다른 LUN들은
Not Responding이 됨
해결방안
Controller Reseating/Reset
반복하여 Cloning 해결
원 인
Controller 불량 및 Bug
증
상
FC60의 Controller Path가
ioscan에서 안보임
Controller 교체 후 LUN0
를 제외한 다른 LUN들은
Not Responding이 됨
해결방안
Controller Reseating/Reset
반복하여 Cloning 해결
원
증
상
인
I2C Bus에 traffic이 발생할
경우에 Power Monitor
Card가 server를 Down 시킴
Rp7400이 갑자기 Halt됨
해 결 방 안
Patch 및 GSP firmware
Update
원
인
Mirror된 disk fault
증 상
Vgdisplay나 lvdisplay –v에서
stale이 발생
해 결 방 안
교체 후 mirror 재 구성
원
인
C1의 Battery Controller
불량
증
상
VA7100에서 ioscan하여 C2
path가 NO_HW로 보임
해 결 방 안
C2교체 후 C1 Battery
Controller 교체
원
증
상
인
서버와 DLT간의 SCSI
Cable PIN중 Write로
사용되는 부분이 손상됨
DLT Drive 백업 속도 저하
해결방안
Vendor사의 해당 Cable 교체
권고
원
인
E1200 Router(FC-SCSI)의
LUN Mapping 문제
증
상
백업 라이브러리 설치 시에
가상 드라이브가 생성됨
해 결 방 안
정확하게 Device와
LUN간의 Mapping 설정
원
인
E1200 Router(FC-SCSI)의
LUN Mapping 문제
증
상
백업 라이브러리 설치 시에
가상 드라이브가 생성됨
해 결 방 안
정확하게 Device와
LUN간의 Mapping 설정
원
인
E1200 Router(FC-SCSI)의
LUN Mapping 문제
증
상
백업 라이브러리 설치 시에
가상 드라이브가 생성됨
해 결 방 안
정확하게 Device와
LUN간의 Mapping 설정
원
인
Flex Cable 불량
증
상
슈퍼돔 Upgrade 도중
Booting Up fail
해 결 방 안
해당 Flex Cable 교체
FC804
FC1204
3
2
1
0
FC014
FC414
7
6
FC004
4
FC415 FC015
5
FC405 FC005
FC1215 FC815
HRSB Cab 1
FC404
FC1205 FC805
5
FC814
FC1214
Cross Flex Cable Order
HLSB – Cab 0
SD : Firmware 35.4
PA8700 875MHz이상에서
Super Dome
D-cache error에 의한
Service Notes
CPU Fault가 될 수 있슴
Rp8400 PCI PWR Supply
과도한 스트레스로 인해서
rp8400
Service Notes
Power Supply가 다운될 수
있슴.
60V  100V Diode Power
Supply 교체
Rp7400 GSP Firmware
불충분한 Log를 보이면서
rp7400
Service Notes
Server Shutdown되거나
Rebooting됨
GSP firmware B.02.17적용
Rp7400 GSP Firmware
불충분한 Log를 보이면서
rp7400
Service Notes
Server Shutdown되거나
Rebooting됨
GSP firmware B.02.17적용
VA7x00 Firmware
Bad Block 증식을 방지
VA7x00
Service Notes
Abterm 결함에 대한 해결
과정 개선
Q&A