Transcript ppt

Aleph
系统运行状态监控
周磊
以色列艾利贝斯有限公司
北京代表处
2014年6月
提纲
• 常用unix命令
• Aleph系统运行状态监控
• 常见问题处理
• 服务器日常维护
2
提纲
• 常用unix命令
• Aleph系统运行状态监控
• 常见问题处理
• 服务器日常维护
3
常用unix命令
• 操作系统相关
 uname -a
操作系统版本
w
查看服务器登录信息和负荷
 top
查看服务器运行状态
 df -h
查看空间占用情况
 du -sh 查看当前目录空间占用情况
 ps -ef
查看进程
 mpstat/prstat/iostat
查看cpu/进程/io情况
4
常用unix命令
• 文件处理
 cat
查看文件
 more
分屏查看文件
 head -n 查看文件的前n行
 tail -n
查看文件的后n行
 find
查找文件
 diff
对比两个文件/目录
5
常用unix命令
• 行编辑器
 cut -c10-15
截取第10-15字节
 grep
过滤出匹配上的行
 egrep
按正则表达式过滤出匹配上的行
 sed
行编辑器:过滤、替换、删除等
 wc -l
查看行数
 sort
排序
 uniq
去重
6
提纲
• 常用unix命令
• Aleph系统运行状态监控
• 常见问题处理
• 服务器日常维护
7
Aleph系统运行状态监控
• 查看license
• 查看pc_server/www_server 运行状态
• 查看pc_server/www_server日志
• 查看apache日志
• 查看aleph常用进程
• 查看oracle表空间
• 常用日志文件
8
查看 license 使用情况
• util y 11 1
9
查看Aleph server
• 监控 util w 1 1
端口
服务类型
启动时间
10
状态
查看Aleph server
• 循环查看服务运行状态:
 server_monitor -tl WWW/PC
 ctrl c 中断
11
查看server日志
• cd $LOGDIR
• more pc_server_6991.log
12
查看server日志
• 查出消耗时间超过10秒的进程。
• grep ELAPSED-TIME pc_server_6991.log
13
查看WWW Server日志
• cd $LOGDIR
14
查看apache日志
• apcl
直接进入apache目录。
 查看某一天的日志
grep '26/Jun/2014' access_log |more
grep '26/Jun/2014' access_log > access_log.20140626
 查看某一天日志的行数
grep '26/Jun/2014' access_log |wc –l
 查看某一天访问最多的ip
grep '26/Jun/2014' access_log | awk '{print $1}' | sort | uniq -c | sort -nr | head
15
查看aleph进程
• ps -fu aleph
以下为有效进程
pc_server
www_server
sip2_server
ncip_server
z39_server
z39_gate
ue_01
ue_11
ue_21
lib_batch
jobd
httpd
java
yaz
16
查看oracle表空间
• util o 14 8
• TSnD 数据
• TSnX 索引
17
常用日志文件
类型
服务
目录
日志文件样例
服务日志
pc_server
www_server
z39_gate
sip2_server
$LOGDIR
pc_server_6991.log
www_server_8991.log
z39_gate_7991.log
sip2_server_5331.log
tomcat
apsm/apss等
$tomcat_log
catalina.out
$alephe_scratch
whu50_p_ret_adm_01.00163
批处理服务
定期作业
jobd
$alephe_scratch
cir_send_mail_9782
抽索引
ue_01
$data_scratch
run_e_01.26637
run_e_01_word.26637
apache
opac/aims/ao
ms/apms 等
apcl
$httpd_root/log
error_log
access_log
oracler
Oracle
$ORACLE_BASE/
diag/rdbms/aleph
20/aleph20/trace
alert_aleph20.log
18
提纲
• 常用unix命令
• Aleph系统运行状态监控
• 常见问题处理
• 服务器日常维护
19
查看访问服务器的IP
• last |more
20
网络无法访问
• 测试网络访问是否正常
 Windows开始菜单,运行,输入cmd
 telnet 服务器地址 端口号,
 如下图,端口都没开放,可能是网络问题,也可能
是弄错了ip,或服务没启动
 如果能链接上,会提示输入信息,可以用ctrl ] 再
quit退出
21
服务器空间查看
• df -h
• du -sh
• linux下可以用ls -lS 来按文件大小排序
•
22
查看问题进程的方法
• 如果工作人员反映服务器响应慢
 首先查看aleph服务状态(server_monitor),看是
busy还是free
 用w 命令查看服务器负荷
 top/prstat命令查看最耗资源的进程
 ps -ef |grep 19725
 kill 19725
23
查看oracle进程对应的sql
• 先用前面的方法找出问题进程,如果是oracle相关进
程,可以查看这个进程对应的sql,如进程号为29425
• 具体查看 $lcl_proc/check_oracle_pid.sql
24
查看oracle锁死进程
• 问题:自定义批处理服务无结果,现象是
tmptable表无法访问
sqlplus /nolog
conn aleph_dba/aleph_dba as sysdba
select b.sid||','||b.serial#,a.OBJECT_ID,a.ORACLE_USERN
AME,a.OS_USER_NAME,a.PROCESS,a.LOCKED_MODE,b.
process from v$locked_object a,v$session b where a.se
ssion_id = b.sid(+);
alter system kill session '455,6930';
25
查看oracle进程数
• 问题:oracle进程/session数过多,无法登录
 查看最大进程数定义
 通过listener访问数据库的进程
ps -fu oracle |grep LOCAL |wc -l
 如有问题,可暂停/重启tomcat和sip2服务
26
提纲
• 常用unix命令
• Aleph系统运行状态监控
• 常见问题处理
• 服务器日常维护
27
系统日常维护
• 服务器维护
• 数据备份与数据安全
• Aleph应用状况
28
服务器日常维护
• 服务器硬件设备的维护
• 操作系统的维护
 系统日志
 服务补丁
 运行状态
 一些统计
 ……
29
数据库日常维护
• 数据库运行状态
 警告日志
 数据表空间
 连接情况
 检查数据文件状态
• 数据备份
 控制文件备份
 数据文件备份 : 建议至少每月检查一次
 恢复测试 : 建议每年至少做两次恢复试验
30
Aleph的日常维护
• 进程管理
• license监控
• 服务日志、apache日志中的错误信息
• 定期作业是否正常完成
• 邮件通知是否正常
• 临时文件的清理
• 服务启停
• 系统监控日志
31
Aleph的日常维护
• 数据备份
• 参数表、应用程序的备份
• 不同服务器之间参数程序的同步
• 重建索引,建议每隔3-6个月,重建书目索引
32
系统维护建议
项目
周期
执行
服务器重启
3-6月
人工
Oracle 重启
3-6月
人工
aleph重启
1月
crontab或人工
aleph书目索引重建
3-6月
人工
数据备份
每天
crontab
参数表、程序备份
每月
crontab
备份文件的检查
每月
人工
备份文件的异地恢复
3-6月
人工
server重启
一周
job_list
临时文件的清理
一周
job_list
系统监控日志
每天
job_list
33
Thank
You!
谢谢!