欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PDF文档下载
     

    系统健康检查服务方案资料.pdf

    • 资源ID:5544196       资源大小:198.41KB        全文页数:18页
    • 资源格式: PDF        下载积分:4
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要4
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    系统健康检查服务方案资料.pdf

    设备健康检查计划 XX集团股份有限公司 2009 年 目录 前言 . 3 1. 服务概况 . 3 1.1 客户名称 3 1.2 服务时间 3 1.3 服务设备 3 1.4 服务内容 3 2. 服务前期准备工作 4 2.1XXX 巡检服务的前期准备工作:. 4 2.2 客户方的前期准备工作: 4 2.3 双方待讨论和协商的问题: 4 3. 服务具体计划 4 4. 应急计划 . 5 5备件计划 6 6. 文档信息 . 6 附录 . 7 SUN系统巡检报告及相关命令说明. 7 ORACLE 数据库巡检报告及相关命令说明. 7 系统配置信息 7 ORACLE 数据库系统维护检查报告 12 前言 感谢尊敬的广东 XXX用户选择了 XXX的服务,XXX公司秉承用户至上宗旨,坚持以 技术为先导,严格按照项目流程和规范管理服务项目, 竭诚为用户提供一流优质的服务。 本文档的主要内容是对客户信息系统进行系统健康检查(简称:巡检)的计划安排。 包括服务概况、服务前期准备工作、服务具体计划、应急计划等等。 1. 服务概况 1.1 客户名称 广东 XXX 1.2 服务时间 待定 1.3 服务设备 见设备清单 1.4 服务内容 系统健康检测维护服务的目的在于了解被巡检系统截至到目前系统的性能状态和 存在的隐患和运行风险; 检查系统的运行状况、 系统配置和连接方式、 系统设置的情况、 系统使用环境的及 系统的日志文件, 进行系统的自检和检测, 分析已经发现的和潜在的问题,建议必要的 措施,提高系统的可用性和可靠性。内容包括如下: 检查设备使用环境是否符合要求和发生显著变更,包括湿度、电压、湿度、摆设位 置等 检查电源,信号线的连接是否牢固;检查、清洁、调节系统硬件,并为需要的设备 更换元件;检查系统的硬件和系统环境配置及网络环境配置;针对客户系统现状, 提出建议和意见。 查阅有关系统信息,检查有无出错信息,如发现出错信息,设法了解问题原因,并 后续给出问题的可能原因和解决建议。 进行系统分析和检测,及时掌握系统的运行和安全状况,发现系统潜在问题,排除 故障隐患和安全漏洞。 在完成系统健康检测后, XXX服务工程师将会同XXX技术专家团队一起分析系统状 况,并内向客户提交巡检分析报告和有关改进措施建议。 2. 服务前期准备工作 2.1XXX巡检服务的前期准备工作: 1负责提交巡检方案,获得客户认可 2负责准备巡检报告模板2 份,巡检报告模板请见附录。(注:一机一份,巡检完毕后, 现场提交用户) 3提供服务的工程师在约定时间准时到达现场 2.2 客户方的前期准备工作: 1负责环境、场地、电源、网线、终端设备等准备工作。 2负责提供系统主机Root 登陆口令(清单)。 3负责提供系统设备IP 地址(清单)。 4负责下电设备的加电准备工作 5负责确定下电设备加电后的连网情况 2.3 双方待讨论和协商的问题: 1Root 口令以何种方式提供? 一般可采取两种方式,一是每台设备由客户来输入Root 口令,另外一种方式是由 客户事先临时修改Root 口令,提供给服务工程师,巡检完毕后再由客户改回。 2下电设备加电后,是否仍然具备连网条件? 如果下电设备加电后不连接网络,则需要采取串口直接连接主机的方式来进行巡 检,可能会影响巡检整体速度。 3确定巡检主机顺序? 系统健康检测不会影响在线设备的运行。 建议巡检顺序为,首先用一台终端依次检测所有连网设备,包括加电后能连网的设 备,其次检测所有加电后无法连网的设备。 3. 服务具体计划 任务名称XXX责任人客 户 方计 划持续 配 合 人 员 时间 步 骤 1. 现 场 环 境 勘 察 以 及 用 户交流 1 服务工程师了解现场机房 环境状况 服务工程师约 40分钟 2 服务工程师在开始实施巡 检时,向客户了解自前一次 维护服务以来所发现的异 常和问题,并采取必要的措 施 服务工程师 3 在对系统采取任何行动之 前,确保已经采取必要的数 据信息保护措施, 如系统的 备份或数据转存等; 服务工程师 步骤 2 . 巡 检 服 务 4 服务工程师收集与所服务 的系统有关的系统变更、 微 码发布、软件升级、软件 PATCH 发布和系统问题的信 息和资料 服务工程师约 一到二 个工作日 5 依次按照巡检内容对系统 设备进行逐项巡检, 并填写 巡检报告 服务工程师 6 巡检过程中如果发现任何 系统问题,双方将协调处理 服务销售 7 巡检过程中如果发现任何 突发事件,请参考本文档 5。 服务销售 步 骤 3. 服 务 收 尾工作 8 提交现场巡检报告, 客户签 字 服务工程师大约 1 个 小时 9 请客户填写服务满意度评 价表 10 双方交流服务工程师 11 五个工作日内提交巡检分 析报告 服务工程师- 4.应急计划 本次巡检服务中的设备为在线系统,理论上讲, 巡检只是对系统状态进行查看,本 身不会对系统产生影响, 只是在极少数情况下, 系统本身已经有故障隐患, 因为巡检触 发,可能会影响系统的运行, 必须通过事先充分准备 , 识别可能的风险 , 并进行规避和控 制。通过以下方法来尽可能减少风险: 服务工程师在开始实施巡检时, 应首先向客户了解自前一次维护服务以来所发现的 异常和问题,并采取必要的措施 在对系统采取任何行动之前, 应确保已经采取必要的数据信息保护措施,如系统的 备份或数据转存等; 服务工程师在巡检过程中记录操作步骤,一旦发生突发问题,也有据可查,方便问 题的定位。 服务工程师在巡检过程中如果发现设备有重大问题,必须尽快进行处理的事件,由 现场巡检工程师向本次用户通报,由用户同XXX服务销售进行协商进行处理。 5备件计划 针对本次健康检查服务, 我方主要提供对 SUN 系统以及 ORACLE 数据库的检查服务为主, 如果在检查过程中, 发现有备件坏, 我们会第一时间跟用户通报, 并从 XXX广州备件库 调相应备件进行更换; 如果备件更换处于合同覆盖范围,我们将不收取备件费用, 如果合同未覆盖, 我们将收 取备件物料成本费; 为此次检查服务准备的备件清单包含但不限于: 型号描述数量 Sun V480 整机带 cpu, 内存 , 硬盘1 X6805A 73.4GB,10000 RPM 硬盘4 ST3310 带控制器 , 无硬盘1 XTA-SC1NC-73G10K 73GB,3310 阵列硬盘4 XTA-SC1NC-146G10K 73GB,3310 阵列硬盘4 6. 文档信息 本文档由 XXX负责起草 附录 SUN系统巡检报告及相关命令说明 ORACLE 数据库巡检报告及相关命令说明 系统配置信息 SUN系统巡检报告 日期:年月日报告编号: 客户名称检查地点 主机型号IP 地址 主机 SN Host ID 配 置 部件型号/数量部件型号/数量 CPU 主板 内存CPU/内存板 硬盘I/O 板 显卡存储阵列 电源磁带驱动器 SCSI 型号外扩网卡型号其它卡型号 系统盘 Raid 情况 管理软件名称版本RAID 类型 硬 件 检查项目结果不正常请注明原因检查项目结果不正常请注明原因 显示器 正常 不正常光驱 正常 不正常 键盘 正常 不正常软驱 正常 不正常 鼠标 正常 不正常线缆 正常 不正常 磁带机 正常 不正常板卡 正常 不正常 系 统 检查项目内容结果不正常请注明原因 系统指示灯状态Front Panel LEDS 正常 不正常 Power Supply LEDS 正常 不正常 Disk LEDS 正常 不正常 System Controller Board LEDS(CPU/Memory、I/O etc.) 正常 不正常 系 统messages 信息 cd /var/adm grep WARN messages* grep error messages* grep panic messages* /var/adm/messages 正常 不正常 /var/adm/messages.0 正常 不正常 /var/adm/messages.1 正常 不正常 /var/adm/messages.2 正常 不正常 /var/adm/messages.3 正常 不正常 硬件运行状态/usr/platform/sun4u/sbin/prtdiag -v 正常 不正常 文件系统利用率df k df o i / 利用率% 正常 不正常 /usr 利用率% 正常 不正常 /var 利用率% 正常 不正常 其它分区 正常 不正常 Ionde 利用率(是否有空闲) 正常 不正常 Swap 分区swap s used k available k 正常 不正常 CPU 负载sar 1 10 % idle 正常 不正常 内存剩余量vmstat 1 KBytes 正常 不正常 I/O 资源iostat En 正常 不正常 网络接口流量netstat i 1 正常 不正常 网口以及 IP 状态ifconfig -a 正常 不正常 网络传输率ping 网关(1分钟) average ms 正常 不正常 NTP 状态ntpq -p 正常 不正常 远程登录设置/etc/inetd.conf ftp 开启 关闭 telnet 开启 关闭 进程总数ps ef|wc -l 个进程 核心 Patch 版本uname a 冗 余 软 件 Disk Suite状态 (没有的不填 ) metastat 输出结果是否正常 正常 不正常 metadb Metadb 建立在有个备份 Volume Manager 状态(没有的不 填) vxdisk list 输出结果是否正常 正常 不正常 vxdg list 有磁盘组 Vxprint -ht 输出结果是否正常 正常 不正常 高 可 用 性 软 件 SunCluster 状态 版本 scstat 输出结果是否正常 正常 不正常 备注 存 储ST3310 阵列 外观及指示灯是否正常 正常 不正常 show-config 输出结果是否正常 正常 不正常 固件版本 SUN主机巡检相关命令及说明 检查项目使用的命令及相关目录内容及其说明 外观检查无 检查机器的指示灯情况、看有无故障 指示 主机的总体情 况 /usr/platform/sun4u/sbin/prtdiag -v 通过该命令,可以查看到CPU的数 量、主频、 CACHE 大小, 内存、 板卡、 风扇转速、环境温度等情况 查看文件系统 挂接情况 df -k 可以查看到文件系统的挂接、使用量 等情况, 如果某个文件系统使用大于 85% ,则要提请注意,大于90% 则要 对其进行清理,删除废文件, 如果根 文件系统使用量达到100% ,会造成 系统崩溃 检查系统日志 文件 grep panic /var/adm/messages* grep error /var/adm/messages* grep WARN /var/adm/messages* 检查系统的日志文件,看有无 panic 、 error、 WARN 等和错误有关的关键字, 其中, panic关键字一般出现在操作 系统因软件或硬件故障崩溃的时候, error则是系统因软件或硬件产生了 错误, WARN 则相对关注级别较低, 属于警告, 这 2 种情况, 都要根据系 统的日志提示, 进一步检查系统情况 检查 CPU使用 情况 sar 1 10 检查 CPU的 IDEL 值,越大越好,这 里给出的命令是指间隔1 秒,检查 10 次 交换分区使用 情况 swap -s 查看交换区 (即虚拟内存)的使用情 况 内存使用情况vmstat 1 检查内存的使用情况,尤其检查其中 的剩余内存量,如内存剩余过少,则 要检查进程及应用的情况,如无异 常,则意味着系统需要更多的物理内 存 硬盘数量及容 量 format 通过该命令, 可以查看到硬盘的容量 大小、数量等情况, 硬盘及其他存 储设备的情况 iostat -E 这个命令可以看到硬盘的运行情况, 包括:厂商、序列号,有无运行错误 等 网络情况netstat -i 1 查看网络的包吞吐情况以及冲突、包 错误率等情况 网络的 IP 设置ifconfig -a 查看系统中的IP 地址设置 查看操作系统 的核心版本 uname -a 该命令除了能查看到操作系统的核 心版本外, 还可以查看到主机的硬件 型号 主机的厂商ID 号 hostid 可以查看到厂商为主机设置的唯一 ID 统计系统当前 进程数量 ps -ef |wc -l 可以查看到系统当前进程数量 远程登录设置 grep ftp /etc/inetd.conf grep telnet /etc/inetd.conf 可以查看系统的远程登录是否打开 网络流通情况ping ping 网络中的另一设备,通常是缺 省网关, 以检查网络的流通延时情况 检查 SUN CLUSTER 管理 的双机系统状 态 scstat 该命令可以显示SUN CLUSTER 双机系 统的和配置、状态有关的信息 通过 Web方式 管理 SUN CLUSTER 双机 系统 通过浏览其,输入主机的IP 地址, 端口号为 3000 ,可以通过Web的方 式管理 SUN CLUSTER 双机系统 存储及冗余软件相关检查及其命令 检查项目使用的命令及相关目录内容及其说明 外观检查无检查机器的指示灯情况、看有无故障指示 ST3x10 阵列检查无 通过串行口连接到阵列的串口,利用其设置 界菜单检查,具体的参数为:波特率38400, 数据位 8,停止位1,奇偶校验无,流控无 ST3x10 阵列检查(通过 sccli工具检查) show-config 连接了 ST3x10 阵列的主机, 如果安装了sccli 工具,通过输入sccli命令,选择了控制器 后,在其界面下输入的命令 用 Varitas Volume Manager 管理的硬盘检 查其管理下硬盘的状态 vxdisk list 检查 Varitas Volume Manager管理下硬盘的 状态 用 Varitas Volume Manager 管理的硬盘检 查其管理下磁盘组的状 态 vxprint -ht 检查 Varitas Volume Manager管理下磁盘组 的状态,包括其划分的子磁盘的、所做的卷 等的状态 用 SDS管理软件管理的 磁盘及其虚拟设备状态 metastat 对于用 Solstice DiskSuite(SDS ,新的版本 改为 Solaris Volume Manager,简称 SVM ) 管理的磁盘,在操作系统下,输入该命令, 检查其管理的磁盘以及虚拟磁盘(md )的状 态 用 SDS管理软件管理的 磁盘,检查起状态数据 库的状态 metadb 对于用 Solstice DiskSuite(SDS ,新的版本 改为 Solaris Volume Manager,简称 SVM ) 管理的磁盘,在操作系统下,输入该命令, 检查其管理数据库(用户保存SDS的设置等) 的状态 ORACLE 数据库系统维护检查报告 报告编号: 系统运行状况检测 序 号 检测内容检测指令检测结果建议 1 检查 alert 日志,是 否有 ora 错误提示 Alert文件 2 数据库名 SQLshow parameter db_name 3 实例名 SQLshow parameter instance_name 4 数据库版本 SQLselect * from v$version; 5 是否归档模式SQLarchive log list 6 安装组件 SQLselect * from v$option; 7 初始化参数 SQLshow parameters 8 SGA 区SQLshow sga 9 用户检查 SQLselect username,account_status, default_tablespace,tempo rary_tablespace,created from dba_users 用户基本信息 用户名称: 联系人:电话 /传真: 地址: 应用系统名称:巡检时间: 主机厂商 /型号:操作系统 /版本: CPU数/ 硬件内存:数据库服务器运行方式: Oracle 产品 / 版本: 10 用户权限检查 SQLselect * from dba_role_privs; 11 是否存在失效对 象 SQLselect owner, object_name,object_type from dba_objects where status = INVALID 12 检查控制文件 SQLselect * from v$controlfile 13 检查联机日志 SQLselect * from v$logfile; 14 检查数据文件 SQLselect * from v$datafile; 15 查看现有回滚段 及其状态 SQL SELECT SEGMENT_NAME,OWNER,TABLE SPACE_NAME,SEGMENT_ID,FI LE_ID,STATUS FROM DBA_ROLLBACK_SEGS; 16 是否有异常等待 事例 SQLselect event,sum(decode(wait_Ti me,0,0,1) “Prev“,sum(decode(wait_T ime,0,1,0) “Curr“,count(*) “ Tot ” from v$session_Wait group by event order by 4; 17 检测连接数情况 SQLSELECT status,count(*) “count“ FROM v$session GROUP BY status; select sid,serial#,username,pro gram,machine,status from v$session; 18 检查表空间使用 情况 19 备份策略的讨论 与实施 20 listener 可用性检 查 lsnrctl status listener.log 21 CRS 进程检查 ps df |grep d.bin 结论: 1、 alert 文件: 有无错误? 2、 表空间使用情况: set linesize 300 SELECT upper(f.tablespace_name) “tablespace_name“, d.Tot_grootte_Mb “tablespace(M)“, d.Tot_grootte_Mb - f.total_bytes “used(M)“, round(d.Tot_grootte_Mb - f.total_bytes) / d.Tot_grootte_Mb * 100,2) “use%“, f.total_bytes “free_space(M)“, round(f.total_bytes / d.Tot_grootte_Mb * 100,2) “free%“ FROM (SELECT tablespace_name, round(SUM(bytes)/(1024*1024),2) total_bytes, round(MAX(bytes)/(1024*1024),2) max_bytes FROM sys.dba_free_space GROUP BY tablespace_name) f, (SELECT dd.tablespace_name, round(SUM(dd.bytes)/(1024*1024),2) Tot_grootte_Mb FROM sys.dba_data_files dd GROUP BY dd.tablespace_name) d WHERE d.tablespace_name = f.tablespace_name ORDER BY 4 DESC / 3、 Shared Pool Size 命中率: select round(sum(gets)-sum(reloads)/sum(gets)*100,1) “libiary cache hit ratio %“ from v$librarycache where namespace in ('SQL AREA','TABLE/PROCEDURE','BODY','TRIGGER'); 4、 数据字典命中率: select round(1-sum(getmisses)/sum(gets)*100,1) “data dictionary hit ratio %“ from v$rowcache; 5、 锁竞争: select substr(ln.name,1,25) Name, l.gets, l.misses, 100*(l.misses/l.gets) “% Ratio (STAY UNDER 1%)“ from v$latch l, v$latchname ln where ln.name in ('cache buffers lru chain') and ln.latch# = l.latch#; 6、 排序命中率: select a.value “Sort(Disk)“, b.value “Sort(Memory)“, round(100*(a.value/decode(a.value+b.value), 0,1,(a.value+b.value),2) “% Ratio (STAY UNDER 5%)“ from v$sysstat a, v$sysstat b where a.name = 'sorts (disk)' and b.name = 'sorts (memory)' 7、 数据缓冲区命中率: select round(1-(phy.value/(cur.value+con.value)*100,1)|'%' ratio from v$sysstat phy,v$sysstat cur,v$sysstat con where phy.name='physical reads' and cur.name='db block gets' and con.name='consistent gets' 8、 v$session_wait: select sid,seq#,event,WAIT_TIME,SECONDS_IN_WAIT from v$session_wait where event not like 'SQL%' and event not like 'rdbms%' 9、 回滚段的争用情况: select name, waits, gets, waits/gets “Ratio“ from v$rollstat a, v$rollname b where a.usn = b.usn; 10、 无效对象情况: col OBJECT_NAME for a36 SELECT object_name, object_type,status FROM dba_objects WHERE status like 'INVALID' 客户签名:工程师签名:日期: 检查项 目 使用的命令及相关目录内容及其说明 alert 文件 alert XXX 在 sqlplus命令行状态下,检查日志文 件,其中 XXX是只 alert文件名 数据库 名SQLshow parameter db_name 显示数据库名 实例名 SQLshow parameter instance_name 显示数据库实例名 版本SQLselect * from v$version; 显示数据库版本 归档设 置 SQLarchive log list 显示归档设置,状况 安装组 件SQLselect * from v$option; 显示已安装的组件 初始化 参数SQLshow parameters 显示初始化参数 SGA SQLshow sga 显示 SGA 的设置,状态 用户 SQLselect username,account_status,default_ta blespace,temporary_tablespace,cre ated from dba_users 用户检查 权限 SQLselect * from dba_role_privs; 检查用户的权限设置 失效对 象 SQLselect owner, object_name,object_type from dba_objects where status = INVALID 检查是否有失效对象 控制文 件SQLselect * from v$controlfile 检查控制文件 连机日 志 SQLselect * from v$logfile; 检查数据库的连接日志 数据文 件 SQLselect * from v$datafile; 检查数据文件 回滚段 SQL SELECT SEGMENT_NAME,OWNER,TA BLESPACE_NAME,SEGMENT_I D,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS; 查看现有回滚段及其状态 Session select SESSIONS_CURRENT , SESSIONS_HIGHWATER from v$license; 系统 Session 使用状态 字符集 select userenv('language') from dual; 字符集 共享池 命中率 select round(sum(gets)-sum(reloads)/su m(gets)*100,1) “libiary cache hit ratio %“ from v$librarycache where namespace in ('SQL AREA','TABLE/PROCEDURE','B ODY','TRIGGER'); 数据字 典命中 率 select round(1-sum(getmisses)/sum(gets) )*100,1) “data dictionary hit ratio %“ from v$rowcache; 数据缓 冲区命 中率 select round(1-(phy.value/(cur.value+co n.value)*100,1)|'%' ratio from v$sysstat phy,v$sysstat cur,v$sysstat con where phy.name='physical reads' and cur.name='db block gets' and con.name='consistent gets' 锁 SELECT lpad(' ',DECODE(request,0,0,1)|sid sess, id1, id2, lmode, request, type FROM V$LOCK WHERE id1 IN (SELECT id1 FROM V$LOCK WHERE lmode = 0) ORDER BY id1,request; waits select sid,seq#,event,WAIT_TIME,SECO NDS_IN_WAIT from v$session_wait where event not like 'SQL%' and event not like 'rdbms%' 播出部数据库系统配置信息 硬件配置 数据库配置 机器名DBM01DBS02 厂商及型号SUN v480 SUN v480 操作系统Sun OS Sun OS 操作系统版本Solaris 9 Solaris 9 内存4 GB 4 GB CPU 数量2 2 磁盘容量 本地 盘阵 73GB 219GB 73GB 219GB 是否使用了裸设备(Yes/ No) 是是 RAID 方式RAID 5+1 RAID 5+1 Oracle 实例数1 1 RAC 节点数2 2 RAC 每节点 CPU 22 实例名GDTV1GDTV2 服务器名 DBSERVER1 DBSERVER2 用途( oltp,dss, batch ) OLTP OLTP RDBMS 版本9.2.0.1 9.2.0.1 SQL*Net版本9.2.0.1 9.2.0.1 存储设备 STOREDGE 3310 DB_BLOCK Size 8192 数据文件个数 控制文件个数3 日志文件大小 100M 100M 日志组数目 2 2 每组日志文件成员数量1 1 日志文件产生频率 10 min 10 min 归档方式no no

    注意事项

    本文(系统健康检查服务方案资料.pdf)为本站会员(白大夫)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开