SlideShare a Scribd company logo
Last updated – Jun 26, 2014 GTPLUS 김 종 인
Exadata Troubleshooting
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template2
주제
 문제 정의
 문제 진단툴
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template4
어디를 살펴볼것 인가?
 문제 정의
– 성능
– 에러
– Crash
– Hang
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template5
중요한 MOS Notes
 888828.1
– Exadata 환경의 패치와 최신이슈의 가장 중요한 참고문서
environment
– 다른 연관 MOS 문서들의 참조도 포함
 1070954.1 - exachk
– Best Practices 를 만족시키기 위한 DB에서 IB switch 까지 이르는 모든것을
체크해 준다.
– Asrexachk (1450112.1)
 Snmp 가 올바르게 설정되었는지 체크해 준다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template6
변경된 것이 있는가?
 최근에 변경된 것의 여부
– 새로운 패치
– 셀 또는 DB 노드의 업그레이드
– 네트워크 변경
– IORM or DBRM 의 사용
 시스템에서 최근에 환경에 변경된 히스토리를 찾아볼것
(.bash_history)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template7
Sundiag
 /opt/oracle.SupportTools/sundiag.sh 은 DB 노드와 셀노드의
표준툴이다.
 The sundiag tool 은 cellcli 명령을 통해 ILOM snapshots
& Megacli raid card logs 을 포함한 많은 정보들을 수집해준다.
 failure or reboot로 인한 DB 노드,셀노드 단절시 sundiag 를
수행하여야 한다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template8
Sundiag
 Sundiag 로 수집되는 추가정보
– oswatcher
– dmesg
– /var/log/messages
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template9
ILOM (Integrated Light Out Manager)
 콘솔 History
– ipmitool sunoem cli "show /SP/console/history”
– ipmitool -I lanplus -H celadm01-ilom -U root -P welcome1 sunoem cli
"show /SP/console/history"
 ILOM 이벤트
– ipmitool -c sunoem cli "show -script /SP/logs/event/list”
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
"show -script /SP/logs/event/list”
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template10
ILOM
 ipmitool -I lanplus –H celadm01-ilom -U root -P
welcome1 sunoem cli "show faulty”
– 하드웨어 이슈가 있다면 정보를 보여준다
 하드웨어가 다운되어 있고 sundiag를 수행하지 못하는 상황이라면
ILOM snapshot 을 뜨거나 remote snapshot 을 수행
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template11
ILOM 스냅샷
 ILOM 에서 스냅샷을 수집하여 호스트로 입력
– ILOM=cell01-ilom HOST=db01
– ipmitool sunoem cli "set /SP/diag/snapshot dataset=normal" -H $ILOM
-U root –P welcome1
– ipmitool sunoem cli "set /SP/diag/snapshot dump_uri=sftp://
root:welcome1@$HOST/tmp" -H $ILOM -U root -P welcome1
– ipmitool sunoem cli "show /SP/diag/snapshot" -H $ILOM -U root -P
welcome1
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template12
ILOM 스냅샷
 스냅샷 명령을 수행했으면 아래와 같이 진행되는 것을 확인가능
 지정한 위치에 파일이 있음을 확인가능
– cel07-c_10.245.20.169_2013-09-20T16-51-21.zip
set /SP/diag/snapshot dataset=normal
set /SP/diag/snapshot dump_uri=sftp://root:welcome1@172.16.20.1/tmp
cd /SP/diag/snapshot
show
Properties:
dataset = normal
dump_uri = (Cannot show property)
encrypt_output = false
** result = Running **
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template13
ILOM 스냅샷
 ILOM snapshots 은 콘솔 히스토리,이벤트 리스트, 하드웨어
Fault 등을 포함
 ILOM 스냅샷은 또한 하드웨어 Fault 와 노드 리부팅을
발생시킨 원인의 분석정보로서 중요한 데이터이다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template14
DB노드 성능
 OSWatcher 체크
– 메모리 사용은 어떠한가?
– CPU 사용은 어떠한가?
– IO 는 어떠한가?
 ExaWatcher/OSWatcher & 성능보고서를 통해 성능
저하를 가져오는 범위를 좁힐수 있다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template15
RAC 인스턴스 또는 노드 축출
 $GI_HOME/bin/diagcollect.pl
– 로그와 코어파일 수집
 --crs 옵션,압축화일의 크기를 줄일수 있음 (default –all)
 --aftertime –beforetime 옵션으로 압축화일의 크기를 줄일수 있음
 OCR & vote disks 접근가능여부
– ocrcheck
– crsctl query css votedisk
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template17
RAC 인스턴스 또는 노드 축출
 Exa/OSWatcher 수집은 축출의 경우에 아주 중요한
분석자료로 이용될수 있다.
 전체 디스크의 사용률 모니터링
 다음과 같은 Exadata Diagnostic collection 툴들도 로그와 트레이스
파일 수집에 도움이 될수 있다.
– Diagnostic Assistant (201804.1)
– Trace File Analyzer (1513912.1)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template16
DB 노드 Hung
 노드 리부팅전에 ILOM 스냅샵 수집을 강력히 권고함
– 리부팅은 ILOM 콘솔 히스토리를 overwrite 할수도 있다.
 MOS 1352805.1 을 참고하여 hung된 노드를 리부팅하거나 SysRq
실행할것
Attempting to gracefully reboot hung Exadata cell or database node (문서 ID
1352805.1)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template18
DB Hang 또는 성능이슈
 항상 Alertlog화일을 확인해보고 ORA-600/7445 에러가 있는지
살펴보고 I/O 에러 또는 기타 이슈원인에 대해 검토해 본다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template19
DB Hang 또는 성능이슈
 Hung 또는 성능이슈 관련 성능리포트를 수집할 필요가 있다.
– ASH
– AWR
– ADDM
– EXA/OSWatcher
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template20
DB Hang 또는 성능이슈
 DB가 Hung 이라면?
SQL> oradebug –g all hanganalyze 1
SQL> oradebug –g all systemstate 258
 Hang 분석,성능과 로그수집을 위해 RDA를 사용할 수도
있다.
 DB 성능이 저하된다면 ASM Disk 쪽을 살펴볼 필요도 있다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template21
ASM 디스크
 v$asm_disk 조회시 offline disk 가 있는지
 v$asm_operation 조회시 리밸런싱 작업이 있는지
 셀이 offline 상태라면 v$asm_operation 조회시 resync 가
일어나고 있는지 (list griddisk checks asm)
 디스크 들이 보이는지 확인 (kernel files OSM disk)
– kfod asm_diskstring='o/*/*' disks=all op=disk
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template22
ASM 디스크
 /etc/oracle/cell/network-config/cellip.ora
– 셀에서 디스크는 보이는데 ASM에서 소실
– cellip.ora 편집 (with caution)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template23
엑사데이타에서 성능 메트릭
 메트릭은 다음의 객체들과 연관이 있다. (cell, cell disk, etc.).
 모든 이용가능한 메트릭은 METRICDEFINITION에 사전정의.
– METRICDEFINITION objects describe the metrics.
 METRICCURRENT 는 현재 값의 Set 이다.
 METRICHISTORY 는 과거 메트릭값의 모음이다.
 THRESHOLD 는 특정한 메트릭에 기초한 alert을 발생시키는 rule 이다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template24
성능 메트릭
 메트릭의 분류:
- Cell metrics – CPU 사용률, 네트워크 같은 Cell에 대한 정보
- Cell disk metrics – 셀디스크로 부터 읽은 large block 정보와 같은 셀디스크에
대한 정보
- Grid disk metrics - 그리드디스크로 부터 읽은 large block 정보와 같은 그리드
디스크에 대한 정보
- Host interconnection metrics – 셀에 엑세스 하는 호스트에 대한 I/O 전송정보
- IORM metrics – Category, Database and Consumer Group metrics. IORM에 대한
정보제공
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template25
셀 디스크 메트릭 예)
Number of requests
to Read Small Blocks
Number of requests
to Write Small Blocks
Number of [Mega]bytes
written in Large Blocks
IO latency for Read
CD_IO_RQ_R_SM
CD_IO_RQ_R_SM_SEC
CD_IO_RQ_W_SM
CD_IO_RQ_W_SM_SEC
CD_IO_BY_W_LG
CD_IO_BY_W_LG_SEC
CD_IO_TM_R_SM_RQ
C
R
C
R
C
R
R
IO req
IO/sec
IO req
IO/sec
Mb
Mb/sec
us/req small Blocks
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template26
IORM: DB 레벨 메트릭 예)
Number of requests
for Small Blocks
Number of requests
for Large Blocks
IORM wait time for
read/write Small Blocks
IORM wait time for
read/write Small Blocks
DB_IO_RQ _SM
DB_IO_RQ_SM_SEC
DB_IO_RQ_LG
DB_IO_RQ_LG_SEC
DB_IO_WT_SM
DB_IO_WT_SM_RQ
DB_IO_WT_LG
DB_IO_WT_R_LG_ RQ
C
R
C
R
C
R
C
R
IO req
IO/sec
IO req
IO/sec
us
us/req
us
us/req
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template27
셀 메트릭 데이터
 셀 메트릭 정보 수집 명령어
– cellcli -e list flashcachecontent attributes all|sed -e 's/^[ t]*//' -e 's/t/,/g'
-e 's/ //g' -e 's/$/,$(date '+%Y%m%d%H%M')/' -e 's/^/${celliphost},/'”
– list metriccurrent CD_IO_TM_W_SM_RQ where metricObjectName
like 'FD.*'
– dcli 로 여러셀 수행가능
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template28
셀 트러블슈팅
 Imageinfo
– 어떤 버전으로 운영되고 있는 확인가능
 List alerthistory
– 셀 에러 또는 에러 이력
 $CELLTRACE and $LOG_HOME
– alert history에 없는 추가적인 에러
– alert.log
– ms-odl.trc
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template29
셀 로그
 $CELLTRACE/alert.log file 에서 ora-600/7445 or
크리티컬 로그 확인
 cellcli list alerthistory
– $CELLTRACE/alert.log 에서도 내역확인 가능
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template30
셀 로그
 LIST ALERTHISTORY WHERE begintime > ’Sep 1,
2013 11:37:00 AM PDT‘
– 39 2013-09-09T12:26:53-07:00 "ORA-07445: exception encountered:
core dump “
 ADR_BASE
– adrci 는 셀로그로도 작동
– adrci 의 위치는 $OSS_BIN/bin
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template31
Cellcli 로그
 Incident package information 은 아래와 같이 확인가능
– celldiag.pl -adr /tmp/adrci -aftertime 201105300000 -beforetime
201106200000 -level all
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template32
셀 로그
 /var/log/oracle/deploy/cellcli.lst.0
– Lists 명령어는 셀환경의 변경 또는 수정 확인 가능.
– 최근 셀에 변경이 있었다면 유용할수 있음
 모든 Cell 에서 크리티컬 로그 수집을 위해 sundiag 수행
– 배터리, RAID 카드, 하드디스크, 플래쉬디스크 또는 I/O 이슈
– cell cli 명령이ㅣ 여전히 health dis로 나타난다면 추가적인 정보수집 가능
disks
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template33
Cellcli 명령어
 list griddisk attributes name,status
 list celldisk attributes name, status
– Proactive failure
– Not present
– Confine inactive
 list physicaldisk
– warning – poor performance
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template34
Cell 진단
 /opt/oracle.cellos/iso/lastGoodConfig/cell/cellsrv/deploy/
config/cellinit.ora
– 셀업그레이드 후 또는 네트워크 변경, 셀 서비스가 기동되지 않을때
해당 파일에서 정확한 IP 정보가 들어가 있는지 체크할것.
– 네트워크 변경작업은 ‘ipconf’ 를 이용하여야 하며, 그렇지 않은 경우
네트워크 변경내역이 업그레이드 작업시에 반영되지 않을 수 있다.
 /opt/oracle.cellos/cell.conf
– 셀 업그레이드 후에 셀 IP 정보가 저장되는 파일
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template35
Cell 진단
 lsof 를 이용하는 것도 trobleshooting에 도움이 될수 있다.
– lsof –a +L1 /u01 or lsof +L1
 unlinked open files의 사이즈 문제해결해 도움.
ex) df 100% but du –sk does not match
– lsof –i :161, lsof –i tcp/udp, netstat –an, -a or -lnp
 누가 어떤 Network port 를 사용하고 있는지 확인가능
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template36
셀 부팅 이슈
 셀 부팅시 grub 화면이 나타나지 않고 커서만 반짝일 경우
USB의 손상등 일수 있다.
 엑사데이타의 부팅은 기본으로 USB 이다.
 디스크로 부터 부팅을 시도해 볼수 있다.
– ipmitool chassis bootdev disk
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
”set /HOST boot_device=disk”
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template37
네트워크 변경
 잘못된 서브넷마스크는 통신장애를 유발할수 있다.
 IP tables 변경은 issue 을 일으킬수 있다.
 GI/DB/Cell 은 RDS 을 이용하지만 여전히 TCP 통신을 수행
한다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template38
인피니밴드 스위치
 소프트웨어 & 펌웨어 버전
– “Version” on ibswitch shows current rev
 rpm –qa|grep ofa 현재 ofa stack
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template39
인피니밴드 스위치 Troubleshooting
 물리 & 링크 레이어 health check
– Listlinkup
– Ibdiagnet
– Ibnetdiscover
– Iblinkinfo.pl
 서브넷 매니저 상태
– Sminfo
– Ibdiagnet –r (look for SM section)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template40
인피니밴드 스위치 Troubleshooting
 토폴로지 확인
– Verifytopology, infinicheck
– 스위치간 링크
– Fat Tree connection compliance
 Layer 3 연결 검증
– IP over IB
– Subnet Masks
– Multicast (saquery)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template41
네트워크 모니터링 툴
 ibdiagnet
– Options: -ls, -lw, -r, -pc, -p
 iblinkinfo.pl
– Options: -S, -P
 perfquery
– Options: -r, -R, -x
 Some options apply to switches only
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template42
네트워크 모니터링 툴
 smpquery
– Options: nodeinfo <lid>, NodeDesc <lid>, NodeInfo <lid>
 ibswitches
– 현재 연결된 IB 스위치 보기
 ibhosts
– IB환경에 연결된 모든 호스트 보기
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template43
Ping 이 안될시
 subnets 확인 (ifconfig)
– IP 주소가 셋업이 잘 되어있는지
 local port 확인 (ibstat)
 routing table 확인 (netstat)
 link health 확인(ibdiagnet)
 OpenSM 상태확인
 Remote 에서 확인 반복수행
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template44
NM2 스위치가 네트웍이 안될시
 NM2 management 에서 호스트로 ping 여부
 Host 로 ssh 가 되는지
 USB 시리얼 콘솔에서
 외부포트 링크가 UP 인가?
 내부포트 링크가 UP 인가?
– Ethtool eth0
 이전 부팅환경의 정보를 가지고 있는지
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template45
IB 환경 검증
 적어도 1개의 마스터 또는 활성화된 서브넷 매니저가
있는지
 IB 호스트에 구동되어야 하는 서버넷 매니저의 유무
 링크 health state (ibdiagnet, ibstat)
 IP 주소와 서브넷 마스크
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template46
IB 환경 검증
 정확한 토폴로지와 케이블링
 중요 서비스가 구동중인지
 정확한 펌웨어 버전
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template47
다른 검증요소
 ping 작동여부
 ARP 작동여부working
 default gateway 와 통신여부reachable
 링크의 UP 여부
 IP 주소가 올바르게 할당 되었는지
 서버가 listening 상태인지
 패킷이 얼마나 멀리가고 그후에 소멸되는지
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template48
요약
 현재 패치버전을 정확히 확인한다.
 Exachk 을 자주 수행하는 것은 환경을 유효화하고 이전수행
환경과 비교하는것도 도움이 될수 있다.
 sundiag, TFA, DA or diagget 등과 같은 툴들은 복잡한 환경하
에서 접속수집을 원할히 할수 있게 해준다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template49
요약
 하드웨어 장애시 메시지가 전송되도록 셀 alerting 이
제대로 구성되었는지 확인
 간단히 확인가능한 요소부터 제거하여 장애유발 원인
파악을 위한 범위축소
 로그확인 재확인
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template50
요약
 여러 개의 노드에 걸쳐 로그를 수집하는데 도움이 된다.
– TFA (Trace File Analyzer)
/u01/app/11.2.0.4/grid/tfa/exa1/tfa_home/bin# ./tfactl diagcollect
– DA

More Related Content

ODP
Memory management in Linux
Raghu Udiyar
 
PDF
Db2 and storage management (mullins)
Craig Mullins
 
PPTX
Explain the explain_plan
Maria Colgan
 
PDF
Oracle DB 19c: SQL Tuning Using SPM
Arturo Aranda
 
PDF
Webinar slides: Migrating to Galera Cluster for MySQL and MariaDB
Severalnines
 
PPT
Introduction of ISPF
Anil Bharti
 
PDF
AWR & ASH Analysis
aioughydchapter
 
PPTX
Oracle DBA
shivankuniversity
 
Memory management in Linux
Raghu Udiyar
 
Db2 and storage management (mullins)
Craig Mullins
 
Explain the explain_plan
Maria Colgan
 
Oracle DB 19c: SQL Tuning Using SPM
Arturo Aranda
 
Webinar slides: Migrating to Galera Cluster for MySQL and MariaDB
Severalnines
 
Introduction of ISPF
Anil Bharti
 
AWR & ASH Analysis
aioughydchapter
 
Oracle DBA
shivankuniversity
 

What's hot (20)

PDF
FreeSWITCH as a Microservice
Evan McGee
 
PPTX
Z OS IBM Utilities
kapa rohit
 
PPTX
Oracle architecture ppt
Deepak Shetty
 
PPTX
Graylog Engineering - Design Your Architecture
Graylog
 
PPTX
SAP ASE 16 SP02 Performance Features
SAP Technology
 
PDF
監査ログをもっと身近に!〜統合監査のすすめ〜
Michitoshi Yoshida
 
PPTX
Oracle dba training
P S Rani
 
PPT
Oracle Architecture
Neeraj Singh
 
PPTX
Data Guard Architecture & Setup
Satishbabu Gunukula
 
PPTX
Secure boot general
Prabhu Swamy
 
PDF
DB2 Systems Programming Tools of the Trade NA07B03
Linda Hagedorn
 
PDF
Tanel Poder - Performance stories from Exadata Migrations
Tanel Poder
 
PDF
Oracle database hot backup and recovery
Arun Sharma
 
PDF
Linux Memory Management
Anil Kumar Pugalia
 
PDF
Percona xtrabackup - MySQL Meetup @ Mumbai
Nilnandan Joshi
 
PDF
Better than you think: Handling JSON data in ClickHouse
Altinity Ltd
 
PPTX
Oracle GoldenGate 21c New Features and Best Practices
Bobby Curtis
 
PDF
Introduction to FreeSWITCH
Chien Cheng Wu
 
PPTX
Yocto Project introduction
Yi-Hsiu Hsu
 
PDF
DB2 for z/OS Architecture in Nutshell
Cuneyt Goksu
 
FreeSWITCH as a Microservice
Evan McGee
 
Z OS IBM Utilities
kapa rohit
 
Oracle architecture ppt
Deepak Shetty
 
Graylog Engineering - Design Your Architecture
Graylog
 
SAP ASE 16 SP02 Performance Features
SAP Technology
 
監査ログをもっと身近に!〜統合監査のすすめ〜
Michitoshi Yoshida
 
Oracle dba training
P S Rani
 
Oracle Architecture
Neeraj Singh
 
Data Guard Architecture & Setup
Satishbabu Gunukula
 
Secure boot general
Prabhu Swamy
 
DB2 Systems Programming Tools of the Trade NA07B03
Linda Hagedorn
 
Tanel Poder - Performance stories from Exadata Migrations
Tanel Poder
 
Oracle database hot backup and recovery
Arun Sharma
 
Linux Memory Management
Anil Kumar Pugalia
 
Percona xtrabackup - MySQL Meetup @ Mumbai
Nilnandan Joshi
 
Better than you think: Handling JSON data in ClickHouse
Altinity Ltd
 
Oracle GoldenGate 21c New Features and Best Practices
Bobby Curtis
 
Introduction to FreeSWITCH
Chien Cheng Wu
 
Yocto Project introduction
Yi-Hsiu Hsu
 
DB2 for z/OS Architecture in Nutshell
Cuneyt Goksu
 
Ad

Similar to Exadata troubleshooting (20)

DOC
Oracle History #14
Kyung Sang Jang
 
PDF
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
Seok-joon Yun
 
PPTX
DB Monitoring 개념 및 활용 (박명규)
WhaTap Labs
 
PDF
Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)
Seungmin Yu
 
PDF
Monitoring System for DevOps - Case of MelOn
Dataya Nolja
 
PDF
OMC
hyuna jung
 
PDF
MySQL Performance Tuning (In Korean)
OracleMySQL
 
PDF
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1
Seok-joon Yun
 
PDF
[2015-07-10-윤석준] Oracle 성능 관리 & v$sysstat
Seok-joon Yun
 
PDF
실무로 배우는 시스템 성능 최적화 8부 - 1,2,3장
Sunggon Song
 
PDF
[오픈소스컨설팅]MySQL Monitoring
Ji-Woong Choi
 
PPTX
Windows 성능모니터를 이용한 SQL Server 성능 분석
Sung wook Kang
 
PDF
What’s Evolving in the Elastic Stack
Elasticsearch
 
PDF
제3회난공불락 오픈소스 인프라세미나 - Nagios
Tommy Lee
 
PDF
Oracle Application Performance Monitoring Cloud Service 소개
Mee Nam Lee
 
PDF
Db 진단 및 튜닝 보고 (example)
중선 곽
 
PDF
Infiniflux introduction
InfiniFlux Korea
 
PPTX
Osmius 소개자료
leebloomer
 
PDF
클라우드/IDC 운영자를 위한 서버 모니터링(Server monitoring) 솔루션 (old version)
옥시즌
 
PDF
클라우드/IDC 운영자를 위한 서버 및 도커 모니터링 솔루션 (old version)
옥시즌
 
Oracle History #14
Kyung Sang Jang
 
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
Seok-joon Yun
 
DB Monitoring 개념 및 활용 (박명규)
WhaTap Labs
 
Custom DevOps Monitoring System in MelOn (with InfluxDB + Telegraf + Grafana)
Seungmin Yu
 
Monitoring System for DevOps - Case of MelOn
Dataya Nolja
 
MySQL Performance Tuning (In Korean)
OracleMySQL
 
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1
Seok-joon Yun
 
[2015-07-10-윤석준] Oracle 성능 관리 & v$sysstat
Seok-joon Yun
 
실무로 배우는 시스템 성능 최적화 8부 - 1,2,3장
Sunggon Song
 
[오픈소스컨설팅]MySQL Monitoring
Ji-Woong Choi
 
Windows 성능모니터를 이용한 SQL Server 성능 분석
Sung wook Kang
 
What’s Evolving in the Elastic Stack
Elasticsearch
 
제3회난공불락 오픈소스 인프라세미나 - Nagios
Tommy Lee
 
Oracle Application Performance Monitoring Cloud Service 소개
Mee Nam Lee
 
Db 진단 및 튜닝 보고 (example)
중선 곽
 
Infiniflux introduction
InfiniFlux Korea
 
Osmius 소개자료
leebloomer
 
클라우드/IDC 운영자를 위한 서버 모니터링(Server monitoring) 솔루션 (old version)
옥시즌
 
클라우드/IDC 운영자를 위한 서버 및 도커 모니터링 솔루션 (old version)
옥시즌
 
Ad

Exadata troubleshooting

  • 1. Last updated – Jun 26, 2014 GTPLUS 김 종 인 Exadata Troubleshooting
  • 2. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template2 주제  문제 정의  문제 진단툴
  • 3. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template4 어디를 살펴볼것 인가?  문제 정의 – 성능 – 에러 – Crash – Hang
  • 4. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template5 중요한 MOS Notes  888828.1 – Exadata 환경의 패치와 최신이슈의 가장 중요한 참고문서 environment – 다른 연관 MOS 문서들의 참조도 포함  1070954.1 - exachk – Best Practices 를 만족시키기 위한 DB에서 IB switch 까지 이르는 모든것을 체크해 준다. – Asrexachk (1450112.1)  Snmp 가 올바르게 설정되었는지 체크해 준다.
  • 5. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template6 변경된 것이 있는가?  최근에 변경된 것의 여부 – 새로운 패치 – 셀 또는 DB 노드의 업그레이드 – 네트워크 변경 – IORM or DBRM 의 사용  시스템에서 최근에 환경에 변경된 히스토리를 찾아볼것 (.bash_history)
  • 6. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template7 Sundiag  /opt/oracle.SupportTools/sundiag.sh 은 DB 노드와 셀노드의 표준툴이다.  The sundiag tool 은 cellcli 명령을 통해 ILOM snapshots & Megacli raid card logs 을 포함한 많은 정보들을 수집해준다.  failure or reboot로 인한 DB 노드,셀노드 단절시 sundiag 를 수행하여야 한다.
  • 7. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template8 Sundiag  Sundiag 로 수집되는 추가정보 – oswatcher – dmesg – /var/log/messages
  • 8. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template9 ILOM (Integrated Light Out Manager)  콘솔 History – ipmitool sunoem cli "show /SP/console/history” – ipmitool -I lanplus -H celadm01-ilom -U root -P welcome1 sunoem cli "show /SP/console/history"  ILOM 이벤트 – ipmitool -c sunoem cli "show -script /SP/logs/event/list” – ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli "show -script /SP/logs/event/list”
  • 9. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template10 ILOM  ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli "show faulty” – 하드웨어 이슈가 있다면 정보를 보여준다  하드웨어가 다운되어 있고 sundiag를 수행하지 못하는 상황이라면 ILOM snapshot 을 뜨거나 remote snapshot 을 수행
  • 10. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template11 ILOM 스냅샷  ILOM 에서 스냅샷을 수집하여 호스트로 입력 – ILOM=cell01-ilom HOST=db01 – ipmitool sunoem cli "set /SP/diag/snapshot dataset=normal" -H $ILOM -U root –P welcome1 – ipmitool sunoem cli "set /SP/diag/snapshot dump_uri=sftp:// root:welcome1@$HOST/tmp" -H $ILOM -U root -P welcome1 – ipmitool sunoem cli "show /SP/diag/snapshot" -H $ILOM -U root -P welcome1
  • 11. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template12 ILOM 스냅샷  스냅샷 명령을 수행했으면 아래와 같이 진행되는 것을 확인가능  지정한 위치에 파일이 있음을 확인가능 – cel07-c_10.245.20.169_2013-09-20T16-51-21.zip set /SP/diag/snapshot dataset=normal set /SP/diag/snapshot dump_uri=sftp://root:[email protected]/tmp cd /SP/diag/snapshot show Properties: dataset = normal dump_uri = (Cannot show property) encrypt_output = false ** result = Running **
  • 12. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template13 ILOM 스냅샷  ILOM snapshots 은 콘솔 히스토리,이벤트 리스트, 하드웨어 Fault 등을 포함  ILOM 스냅샷은 또한 하드웨어 Fault 와 노드 리부팅을 발생시킨 원인의 분석정보로서 중요한 데이터이다.
  • 13. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template14 DB노드 성능  OSWatcher 체크 – 메모리 사용은 어떠한가? – CPU 사용은 어떠한가? – IO 는 어떠한가?  ExaWatcher/OSWatcher & 성능보고서를 통해 성능 저하를 가져오는 범위를 좁힐수 있다.
  • 14. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template15 RAC 인스턴스 또는 노드 축출  $GI_HOME/bin/diagcollect.pl – 로그와 코어파일 수집  --crs 옵션,압축화일의 크기를 줄일수 있음 (default –all)  --aftertime –beforetime 옵션으로 압축화일의 크기를 줄일수 있음  OCR & vote disks 접근가능여부 – ocrcheck – crsctl query css votedisk
  • 15. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template17 RAC 인스턴스 또는 노드 축출  Exa/OSWatcher 수집은 축출의 경우에 아주 중요한 분석자료로 이용될수 있다.  전체 디스크의 사용률 모니터링  다음과 같은 Exadata Diagnostic collection 툴들도 로그와 트레이스 파일 수집에 도움이 될수 있다. – Diagnostic Assistant (201804.1) – Trace File Analyzer (1513912.1)
  • 16. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template16 DB 노드 Hung  노드 리부팅전에 ILOM 스냅샵 수집을 강력히 권고함 – 리부팅은 ILOM 콘솔 히스토리를 overwrite 할수도 있다.  MOS 1352805.1 을 참고하여 hung된 노드를 리부팅하거나 SysRq 실행할것 Attempting to gracefully reboot hung Exadata cell or database node (문서 ID 1352805.1)
  • 17. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template18 DB Hang 또는 성능이슈  항상 Alertlog화일을 확인해보고 ORA-600/7445 에러가 있는지 살펴보고 I/O 에러 또는 기타 이슈원인에 대해 검토해 본다.
  • 18. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template19 DB Hang 또는 성능이슈  Hung 또는 성능이슈 관련 성능리포트를 수집할 필요가 있다. – ASH – AWR – ADDM – EXA/OSWatcher
  • 19. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template20 DB Hang 또는 성능이슈  DB가 Hung 이라면? SQL> oradebug –g all hanganalyze 1 SQL> oradebug –g all systemstate 258  Hang 분석,성능과 로그수집을 위해 RDA를 사용할 수도 있다.  DB 성능이 저하된다면 ASM Disk 쪽을 살펴볼 필요도 있다.
  • 20. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template21 ASM 디스크  v$asm_disk 조회시 offline disk 가 있는지  v$asm_operation 조회시 리밸런싱 작업이 있는지  셀이 offline 상태라면 v$asm_operation 조회시 resync 가 일어나고 있는지 (list griddisk checks asm)  디스크 들이 보이는지 확인 (kernel files OSM disk) – kfod asm_diskstring='o/*/*' disks=all op=disk
  • 21. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template22 ASM 디스크  /etc/oracle/cell/network-config/cellip.ora – 셀에서 디스크는 보이는데 ASM에서 소실 – cellip.ora 편집 (with caution)
  • 22. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template23 엑사데이타에서 성능 메트릭  메트릭은 다음의 객체들과 연관이 있다. (cell, cell disk, etc.).  모든 이용가능한 메트릭은 METRICDEFINITION에 사전정의. – METRICDEFINITION objects describe the metrics.  METRICCURRENT 는 현재 값의 Set 이다.  METRICHISTORY 는 과거 메트릭값의 모음이다.  THRESHOLD 는 특정한 메트릭에 기초한 alert을 발생시키는 rule 이다.
  • 23. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template24 성능 메트릭  메트릭의 분류: - Cell metrics – CPU 사용률, 네트워크 같은 Cell에 대한 정보 - Cell disk metrics – 셀디스크로 부터 읽은 large block 정보와 같은 셀디스크에 대한 정보 - Grid disk metrics - 그리드디스크로 부터 읽은 large block 정보와 같은 그리드 디스크에 대한 정보 - Host interconnection metrics – 셀에 엑세스 하는 호스트에 대한 I/O 전송정보 - IORM metrics – Category, Database and Consumer Group metrics. IORM에 대한 정보제공
  • 24. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template25 셀 디스크 메트릭 예) Number of requests to Read Small Blocks Number of requests to Write Small Blocks Number of [Mega]bytes written in Large Blocks IO latency for Read CD_IO_RQ_R_SM CD_IO_RQ_R_SM_SEC CD_IO_RQ_W_SM CD_IO_RQ_W_SM_SEC CD_IO_BY_W_LG CD_IO_BY_W_LG_SEC CD_IO_TM_R_SM_RQ C R C R C R R IO req IO/sec IO req IO/sec Mb Mb/sec us/req small Blocks
  • 25. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template26 IORM: DB 레벨 메트릭 예) Number of requests for Small Blocks Number of requests for Large Blocks IORM wait time for read/write Small Blocks IORM wait time for read/write Small Blocks DB_IO_RQ _SM DB_IO_RQ_SM_SEC DB_IO_RQ_LG DB_IO_RQ_LG_SEC DB_IO_WT_SM DB_IO_WT_SM_RQ DB_IO_WT_LG DB_IO_WT_R_LG_ RQ C R C R C R C R IO req IO/sec IO req IO/sec us us/req us us/req
  • 26. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template27 셀 메트릭 데이터  셀 메트릭 정보 수집 명령어 – cellcli -e list flashcachecontent attributes all|sed -e 's/^[ t]*//' -e 's/t/,/g' -e 's/ //g' -e 's/$/,$(date '+%Y%m%d%H%M')/' -e 's/^/${celliphost},/'” – list metriccurrent CD_IO_TM_W_SM_RQ where metricObjectName like 'FD.*' – dcli 로 여러셀 수행가능
  • 27. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template28 셀 트러블슈팅  Imageinfo – 어떤 버전으로 운영되고 있는 확인가능  List alerthistory – 셀 에러 또는 에러 이력  $CELLTRACE and $LOG_HOME – alert history에 없는 추가적인 에러 – alert.log – ms-odl.trc
  • 28. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template29 셀 로그  $CELLTRACE/alert.log file 에서 ora-600/7445 or 크리티컬 로그 확인  cellcli list alerthistory – $CELLTRACE/alert.log 에서도 내역확인 가능
  • 29. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template30 셀 로그  LIST ALERTHISTORY WHERE begintime > ’Sep 1, 2013 11:37:00 AM PDT‘ – 39 2013-09-09T12:26:53-07:00 "ORA-07445: exception encountered: core dump “  ADR_BASE – adrci 는 셀로그로도 작동 – adrci 의 위치는 $OSS_BIN/bin
  • 30. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template31 Cellcli 로그  Incident package information 은 아래와 같이 확인가능 – celldiag.pl -adr /tmp/adrci -aftertime 201105300000 -beforetime 201106200000 -level all
  • 31. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template32 셀 로그  /var/log/oracle/deploy/cellcli.lst.0 – Lists 명령어는 셀환경의 변경 또는 수정 확인 가능. – 최근 셀에 변경이 있었다면 유용할수 있음  모든 Cell 에서 크리티컬 로그 수집을 위해 sundiag 수행 – 배터리, RAID 카드, 하드디스크, 플래쉬디스크 또는 I/O 이슈 – cell cli 명령이ㅣ 여전히 health dis로 나타난다면 추가적인 정보수집 가능 disks
  • 32. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template33 Cellcli 명령어  list griddisk attributes name,status  list celldisk attributes name, status – Proactive failure – Not present – Confine inactive  list physicaldisk – warning – poor performance
  • 33. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template34 Cell 진단  /opt/oracle.cellos/iso/lastGoodConfig/cell/cellsrv/deploy/ config/cellinit.ora – 셀업그레이드 후 또는 네트워크 변경, 셀 서비스가 기동되지 않을때 해당 파일에서 정확한 IP 정보가 들어가 있는지 체크할것. – 네트워크 변경작업은 ‘ipconf’ 를 이용하여야 하며, 그렇지 않은 경우 네트워크 변경내역이 업그레이드 작업시에 반영되지 않을 수 있다.  /opt/oracle.cellos/cell.conf – 셀 업그레이드 후에 셀 IP 정보가 저장되는 파일
  • 34. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template35 Cell 진단  lsof 를 이용하는 것도 trobleshooting에 도움이 될수 있다. – lsof –a +L1 /u01 or lsof +L1  unlinked open files의 사이즈 문제해결해 도움. ex) df 100% but du –sk does not match – lsof –i :161, lsof –i tcp/udp, netstat –an, -a or -lnp  누가 어떤 Network port 를 사용하고 있는지 확인가능
  • 35. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template36 셀 부팅 이슈  셀 부팅시 grub 화면이 나타나지 않고 커서만 반짝일 경우 USB의 손상등 일수 있다.  엑사데이타의 부팅은 기본으로 USB 이다.  디스크로 부터 부팅을 시도해 볼수 있다. – ipmitool chassis bootdev disk – ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli ”set /HOST boot_device=disk”
  • 36. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template37 네트워크 변경  잘못된 서브넷마스크는 통신장애를 유발할수 있다.  IP tables 변경은 issue 을 일으킬수 있다.  GI/DB/Cell 은 RDS 을 이용하지만 여전히 TCP 통신을 수행 한다.
  • 37. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template38 인피니밴드 스위치  소프트웨어 & 펌웨어 버전 – “Version” on ibswitch shows current rev  rpm –qa|grep ofa 현재 ofa stack
  • 38. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template39 인피니밴드 스위치 Troubleshooting  물리 & 링크 레이어 health check – Listlinkup – Ibdiagnet – Ibnetdiscover – Iblinkinfo.pl  서브넷 매니저 상태 – Sminfo – Ibdiagnet –r (look for SM section)
  • 39. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template40 인피니밴드 스위치 Troubleshooting  토폴로지 확인 – Verifytopology, infinicheck – 스위치간 링크 – Fat Tree connection compliance  Layer 3 연결 검증 – IP over IB – Subnet Masks – Multicast (saquery)
  • 40. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template41 네트워크 모니터링 툴  ibdiagnet – Options: -ls, -lw, -r, -pc, -p  iblinkinfo.pl – Options: -S, -P  perfquery – Options: -r, -R, -x  Some options apply to switches only
  • 41. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template42 네트워크 모니터링 툴  smpquery – Options: nodeinfo <lid>, NodeDesc <lid>, NodeInfo <lid>  ibswitches – 현재 연결된 IB 스위치 보기  ibhosts – IB환경에 연결된 모든 호스트 보기
  • 42. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template43 Ping 이 안될시  subnets 확인 (ifconfig) – IP 주소가 셋업이 잘 되어있는지  local port 확인 (ibstat)  routing table 확인 (netstat)  link health 확인(ibdiagnet)  OpenSM 상태확인  Remote 에서 확인 반복수행
  • 43. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template44 NM2 스위치가 네트웍이 안될시  NM2 management 에서 호스트로 ping 여부  Host 로 ssh 가 되는지  USB 시리얼 콘솔에서  외부포트 링크가 UP 인가?  내부포트 링크가 UP 인가? – Ethtool eth0  이전 부팅환경의 정보를 가지고 있는지
  • 44. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template45 IB 환경 검증  적어도 1개의 마스터 또는 활성화된 서브넷 매니저가 있는지  IB 호스트에 구동되어야 하는 서버넷 매니저의 유무  링크 health state (ibdiagnet, ibstat)  IP 주소와 서브넷 마스크
  • 45. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template46 IB 환경 검증  정확한 토폴로지와 케이블링  중요 서비스가 구동중인지  정확한 펌웨어 버전
  • 46. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template47 다른 검증요소  ping 작동여부  ARP 작동여부working  default gateway 와 통신여부reachable  링크의 UP 여부  IP 주소가 올바르게 할당 되었는지  서버가 listening 상태인지  패킷이 얼마나 멀리가고 그후에 소멸되는지
  • 47. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template48 요약  현재 패치버전을 정확히 확인한다.  Exachk 을 자주 수행하는 것은 환경을 유효화하고 이전수행 환경과 비교하는것도 도움이 될수 있다.  sundiag, TFA, DA or diagget 등과 같은 툴들은 복잡한 환경하 에서 접속수집을 원할히 할수 있게 해준다.
  • 48. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template49 요약  하드웨어 장애시 메시지가 전송되도록 셀 alerting 이 제대로 구성되었는지 확인  간단히 확인가능한 요소부터 제거하여 장애유발 원인 파악을 위한 범위축소  로그확인 재확인
  • 49. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template50 요약  여러 개의 노드에 걸쳐 로그를 수집하는데 도움이 된다. – TFA (Trace File Analyzer) /u01/app/11.2.0.4/grid/tfa/exa1/tfa_home/bin# ./tfactl diagcollect – DA