Transcript 장애Case
Case Study 2003.3.18 강사 :윤 부현 과장 HPS/ISO/MC 1. 장애 유형 분석 Agenda 2. Korea 장애 유형 분석 3. Each Case 사례 4. Q&A 원 인 CPU #1 Fail로 인하여, Oracle Core file 생성 증 상 RP7400 cpu #1 Fail 해 결 방 안 해당 CPU 교환 원 인 System전원의 Ground와 Neutral이 바뀌어 있슴 증 상 Network 안되면서 Hub측 Port가 녹아 내림 해 결 방 안 전원 문제 해결 원 인 라이브러리 파일 및 PATH에 문제가 있슴 증 상 Patch 도중 kernel 컴파일하 면서 Error가 발생함 해 결 방 안 라이브러리 파일 복원 및 PATH 수정 원 인 Cell #2 1번 CPU Fault 증 상 RP8400 System Panic 해 결 방 안 해당 Cell CPU Replace & O/S Reinstall 원 인 /dev/vg00밑에 모든 File이 사라짐 증 상 SuperDome Booting Fail 해 결 방 안 Mknod 명령어로 File 생성 원 증 상 XP256 전산실 작업 중 BCJ 를 제거한 후 BC가 initial copy가 수행됨 인 DATA의 신뢰성을 보장하기위해 Firmware Level에서 처리되는 정상적인 Mode 해 결 방 안 현재 Lab에서 검토 및 해결 진행 중 원 인 /etc/ioconfig와 /stand/ioconfig의 불일치 증 상 BOOTING을 한 후에 DISK DEVICE FILE들이 바뀜 해 결 방 안 해당 파일을 restore함 원 증 상 인 FAN에 전원을 공급해 주는 48V Power Board의 Capacitor 불량 V2600의 Fan Fail이 발생 Fan 및 Fuse교체 후에도 일 정 시간 후 같은 문제 발생 해결방안 48V Power Board 교체 원 인 Controller 불량 및 Bug 증 상 FC60의 Controller Path가 ioscan에서 안보임 Controller 교체 후 LUN0 를 제외한 다른 LUN들은 Not Responding이 됨 해결방안 Controller Reseating/Reset 반복하여 Cloning 해결 원 인 Controller 불량 및 Bug 증 상 FC60의 Controller Path가 ioscan에서 안보임 Controller 교체 후 LUN0 를 제외한 다른 LUN들은 Not Responding이 됨 해결방안 Controller Reseating/Reset 반복하여 Cloning 해결 원 증 상 인 I2C Bus에 traffic이 발생할 경우에 Power Monitor Card가 server를 Down 시킴 Rp7400이 갑자기 Halt됨 해 결 방 안 Patch 및 GSP firmware Update 원 인 Mirror된 disk fault 증 상 Vgdisplay나 lvdisplay –v에서 stale이 발생 해 결 방 안 교체 후 mirror 재 구성 원 인 C1의 Battery Controller 불량 증 상 VA7100에서 ioscan하여 C2 path가 NO_HW로 보임 해 결 방 안 C2교체 후 C1 Battery Controller 교체 원 증 상 인 서버와 DLT간의 SCSI Cable PIN중 Write로 사용되는 부분이 손상됨 DLT Drive 백업 속도 저하 해결방안 Vendor사의 해당 Cable 교체 권고 원 인 E1200 Router(FC-SCSI)의 LUN Mapping 문제 증 상 백업 라이브러리 설치 시에 가상 드라이브가 생성됨 해 결 방 안 정확하게 Device와 LUN간의 Mapping 설정 원 인 E1200 Router(FC-SCSI)의 LUN Mapping 문제 증 상 백업 라이브러리 설치 시에 가상 드라이브가 생성됨 해 결 방 안 정확하게 Device와 LUN간의 Mapping 설정 원 인 E1200 Router(FC-SCSI)의 LUN Mapping 문제 증 상 백업 라이브러리 설치 시에 가상 드라이브가 생성됨 해 결 방 안 정확하게 Device와 LUN간의 Mapping 설정 원 인 Flex Cable 불량 증 상 슈퍼돔 Upgrade 도중 Booting Up fail 해 결 방 안 해당 Flex Cable 교체 FC804 FC1204 3 2 1 0 FC014 FC414 7 6 FC004 4 FC415 FC015 5 FC405 FC005 FC1215 FC815 HRSB Cab 1 FC404 FC1205 FC805 5 FC814 FC1214 Cross Flex Cable Order HLSB – Cab 0 SD : Firmware 35.4 PA8700 875MHz이상에서 Super Dome D-cache error에 의한 Service Notes CPU Fault가 될 수 있슴 Rp8400 PCI PWR Supply 과도한 스트레스로 인해서 rp8400 Service Notes Power Supply가 다운될 수 있슴. 60V 100V Diode Power Supply 교체 Rp7400 GSP Firmware 불충분한 Log를 보이면서 rp7400 Service Notes Server Shutdown되거나 Rebooting됨 GSP firmware B.02.17적용 Rp7400 GSP Firmware 불충분한 Log를 보이면서 rp7400 Service Notes Server Shutdown되거나 Rebooting됨 GSP firmware B.02.17적용 VA7x00 Firmware Bad Block 증식을 방지 VA7x00 Service Notes Abterm 결함에 대한 해결 과정 개선 Q&A