系统健康检查服务方案资料.pdf
《系统健康检查服务方案资料.pdf》由会员分享,可在线阅读,更多相关《系统健康检查服务方案资料.pdf(18页珍藏版)》请在三一文库上搜索。
1、设备健康检查计划 XX集团股份有限公司 2009 年 目录 前言 . 3 1. 服务概况 . 3 1.1 客户名称 3 1.2 服务时间 3 1.3 服务设备 3 1.4 服务内容 3 2. 服务前期准备工作 4 2.1XXX 巡检服务的前期准备工作:. 4 2.2 客户方的前期准备工作: 4 2.3 双方待讨论和协商的问题: 4 3. 服务具体计划 4 4. 应急计划 . 5 5备件计划 6 6. 文档信息 . 6 附录 . 7 SUN系统巡检报告及相关命令说明. 7 ORACLE 数据库巡检报告及相关命令说明. 7 系统配置信息 7 ORACLE 数据库系统维护检查报告 12 前言 感谢尊
2、敬的广东 XXX用户选择了 XXX的服务,XXX公司秉承用户至上宗旨,坚持以 技术为先导,严格按照项目流程和规范管理服务项目, 竭诚为用户提供一流优质的服务。 本文档的主要内容是对客户信息系统进行系统健康检查(简称:巡检)的计划安排。 包括服务概况、服务前期准备工作、服务具体计划、应急计划等等。 1. 服务概况 1.1 客户名称 广东 XXX 1.2 服务时间 待定 1.3 服务设备 见设备清单 1.4 服务内容 系统健康检测维护服务的目的在于了解被巡检系统截至到目前系统的性能状态和 存在的隐患和运行风险; 检查系统的运行状况、 系统配置和连接方式、 系统设置的情况、 系统使用环境的及 系统的
3、日志文件, 进行系统的自检和检测, 分析已经发现的和潜在的问题,建议必要的 措施,提高系统的可用性和可靠性。内容包括如下: 检查设备使用环境是否符合要求和发生显著变更,包括湿度、电压、湿度、摆设位 置等 检查电源,信号线的连接是否牢固;检查、清洁、调节系统硬件,并为需要的设备 更换元件;检查系统的硬件和系统环境配置及网络环境配置;针对客户系统现状, 提出建议和意见。 查阅有关系统信息,检查有无出错信息,如发现出错信息,设法了解问题原因,并 后续给出问题的可能原因和解决建议。 进行系统分析和检测,及时掌握系统的运行和安全状况,发现系统潜在问题,排除 故障隐患和安全漏洞。 在完成系统健康检测后,
4、XXX服务工程师将会同XXX技术专家团队一起分析系统状 况,并内向客户提交巡检分析报告和有关改进措施建议。 2. 服务前期准备工作 2.1XXX巡检服务的前期准备工作: 1负责提交巡检方案,获得客户认可 2负责准备巡检报告模板2 份,巡检报告模板请见附录。(注:一机一份,巡检完毕后, 现场提交用户) 3提供服务的工程师在约定时间准时到达现场 2.2 客户方的前期准备工作: 1负责环境、场地、电源、网线、终端设备等准备工作。 2负责提供系统主机Root 登陆口令(清单)。 3负责提供系统设备IP 地址(清单)。 4负责下电设备的加电准备工作 5负责确定下电设备加电后的连网情况 2.3 双方待讨论
5、和协商的问题: 1Root 口令以何种方式提供? 一般可采取两种方式,一是每台设备由客户来输入Root 口令,另外一种方式是由 客户事先临时修改Root 口令,提供给服务工程师,巡检完毕后再由客户改回。 2下电设备加电后,是否仍然具备连网条件? 如果下电设备加电后不连接网络,则需要采取串口直接连接主机的方式来进行巡 检,可能会影响巡检整体速度。 3确定巡检主机顺序? 系统健康检测不会影响在线设备的运行。 建议巡检顺序为,首先用一台终端依次检测所有连网设备,包括加电后能连网的设 备,其次检测所有加电后无法连网的设备。 3. 服务具体计划 任务名称XXX责任人客 户 方计 划持续 配 合 人 员
6、时间 步 骤 1. 现 场 环 境 勘 察 以 及 用 户交流 1 服务工程师了解现场机房 环境状况 服务工程师约 40分钟 2 服务工程师在开始实施巡 检时,向客户了解自前一次 维护服务以来所发现的异 常和问题,并采取必要的措 施 服务工程师 3 在对系统采取任何行动之 前,确保已经采取必要的数 据信息保护措施, 如系统的 备份或数据转存等; 服务工程师 步骤 2 . 巡 检 服 务 4 服务工程师收集与所服务 的系统有关的系统变更、 微 码发布、软件升级、软件 PATCH 发布和系统问题的信 息和资料 服务工程师约 一到二 个工作日 5 依次按照巡检内容对系统 设备进行逐项巡检, 并填写
7、巡检报告 服务工程师 6 巡检过程中如果发现任何 系统问题,双方将协调处理 服务销售 7 巡检过程中如果发现任何 突发事件,请参考本文档 5。 服务销售 步 骤 3. 服 务 收 尾工作 8 提交现场巡检报告, 客户签 字 服务工程师大约 1 个 小时 9 请客户填写服务满意度评 价表 10 双方交流服务工程师 11 五个工作日内提交巡检分 析报告 服务工程师- 4.应急计划 本次巡检服务中的设备为在线系统,理论上讲, 巡检只是对系统状态进行查看,本 身不会对系统产生影响, 只是在极少数情况下, 系统本身已经有故障隐患, 因为巡检触 发,可能会影响系统的运行, 必须通过事先充分准备 , 识别可
8、能的风险 , 并进行规避和控 制。通过以下方法来尽可能减少风险: 服务工程师在开始实施巡检时, 应首先向客户了解自前一次维护服务以来所发现的 异常和问题,并采取必要的措施 在对系统采取任何行动之前, 应确保已经采取必要的数据信息保护措施,如系统的 备份或数据转存等; 服务工程师在巡检过程中记录操作步骤,一旦发生突发问题,也有据可查,方便问 题的定位。 服务工程师在巡检过程中如果发现设备有重大问题,必须尽快进行处理的事件,由 现场巡检工程师向本次用户通报,由用户同XXX服务销售进行协商进行处理。 5备件计划 针对本次健康检查服务, 我方主要提供对 SUN 系统以及 ORACLE 数据库的检查服务
9、为主, 如果在检查过程中, 发现有备件坏, 我们会第一时间跟用户通报, 并从 XXX广州备件库 调相应备件进行更换; 如果备件更换处于合同覆盖范围,我们将不收取备件费用, 如果合同未覆盖, 我们将收 取备件物料成本费; 为此次检查服务准备的备件清单包含但不限于: 型号描述数量 Sun V480 整机带 cpu, 内存 , 硬盘1 X6805A 73.4GB,10000 RPM 硬盘4 ST3310 带控制器 , 无硬盘1 XTA-SC1NC-73G10K 73GB,3310 阵列硬盘4 XTA-SC1NC-146G10K 73GB,3310 阵列硬盘4 6. 文档信息 本文档由 XXX负责起草
10、 附录 SUN系统巡检报告及相关命令说明 ORACLE 数据库巡检报告及相关命令说明 系统配置信息 SUN系统巡检报告 日期:年月日报告编号: 客户名称检查地点 主机型号IP 地址 主机 SN Host ID 配 置 部件型号/数量部件型号/数量 CPU 主板 内存CPU/内存板 硬盘I/O 板 显卡存储阵列 电源磁带驱动器 SCSI 型号外扩网卡型号其它卡型号 系统盘 Raid 情况 管理软件名称版本RAID 类型 硬 件 检查项目结果不正常请注明原因检查项目结果不正常请注明原因 显示器 正常 不正常光驱 正常 不正常 键盘 正常 不正常软驱 正常 不正常 鼠标 正常 不正常线缆 正常 不正
11、常 磁带机 正常 不正常板卡 正常 不正常 系 统 检查项目内容结果不正常请注明原因 系统指示灯状态Front Panel LEDS 正常 不正常 Power Supply LEDS 正常 不正常 Disk LEDS 正常 不正常 System Controller Board LEDS(CPU/Memory、I/O etc.) 正常 不正常 系 统messages 信息 cd /var/adm grep WARN messages* grep error messages* grep panic messages* /var/adm/messages 正常 不正常 /var/adm/mess
12、ages.0 正常 不正常 /var/adm/messages.1 正常 不正常 /var/adm/messages.2 正常 不正常 /var/adm/messages.3 正常 不正常 硬件运行状态/usr/platform/sun4u/sbin/prtdiag -v 正常 不正常 文件系统利用率df k df o i / 利用率% 正常 不正常 /usr 利用率% 正常 不正常 /var 利用率% 正常 不正常 其它分区 正常 不正常 Ionde 利用率(是否有空闲) 正常 不正常 Swap 分区swap s used k available k 正常 不正常 CPU 负载sar 1 1
13、0 % idle 正常 不正常 内存剩余量vmstat 1 KBytes 正常 不正常 I/O 资源iostat En 正常 不正常 网络接口流量netstat i 1 正常 不正常 网口以及 IP 状态ifconfig -a 正常 不正常 网络传输率ping 网关(1分钟) average ms 正常 不正常 NTP 状态ntpq -p 正常 不正常 远程登录设置/etc/inetd.conf ftp 开启 关闭 telnet 开启 关闭 进程总数ps ef|wc -l 个进程 核心 Patch 版本uname a 冗 余 软 件 Disk Suite状态 (没有的不填 ) metastat
14、 输出结果是否正常 正常 不正常 metadb Metadb 建立在有个备份 Volume Manager 状态(没有的不 填) vxdisk list 输出结果是否正常 正常 不正常 vxdg list 有磁盘组 Vxprint -ht 输出结果是否正常 正常 不正常 高 可 用 性 软 件 SunCluster 状态 版本 scstat 输出结果是否正常 正常 不正常 备注 存 储ST3310 阵列 外观及指示灯是否正常 正常 不正常 show-config 输出结果是否正常 正常 不正常 固件版本 SUN主机巡检相关命令及说明 检查项目使用的命令及相关目录内容及其说明 外观检查无 检查机
15、器的指示灯情况、看有无故障 指示 主机的总体情 况 /usr/platform/sun4u/sbin/prtdiag -v 通过该命令,可以查看到CPU的数 量、主频、 CACHE 大小, 内存、 板卡、 风扇转速、环境温度等情况 查看文件系统 挂接情况 df -k 可以查看到文件系统的挂接、使用量 等情况, 如果某个文件系统使用大于 85% ,则要提请注意,大于90% 则要 对其进行清理,删除废文件, 如果根 文件系统使用量达到100% ,会造成 系统崩溃 检查系统日志 文件 grep panic /var/adm/messages* grep error /var/adm/messages
16、* grep WARN /var/adm/messages* 检查系统的日志文件,看有无 panic 、 error、 WARN 等和错误有关的关键字, 其中, panic关键字一般出现在操作 系统因软件或硬件故障崩溃的时候, error则是系统因软件或硬件产生了 错误, WARN 则相对关注级别较低, 属于警告, 这 2 种情况, 都要根据系 统的日志提示, 进一步检查系统情况 检查 CPU使用 情况 sar 1 10 检查 CPU的 IDEL 值,越大越好,这 里给出的命令是指间隔1 秒,检查 10 次 交换分区使用 情况 swap -s 查看交换区 (即虚拟内存)的使用情 况 内存使用情
17、况vmstat 1 检查内存的使用情况,尤其检查其中 的剩余内存量,如内存剩余过少,则 要检查进程及应用的情况,如无异 常,则意味着系统需要更多的物理内 存 硬盘数量及容 量 format 通过该命令, 可以查看到硬盘的容量 大小、数量等情况, 硬盘及其他存 储设备的情况 iostat -E 这个命令可以看到硬盘的运行情况, 包括:厂商、序列号,有无运行错误 等 网络情况netstat -i 1 查看网络的包吞吐情况以及冲突、包 错误率等情况 网络的 IP 设置ifconfig -a 查看系统中的IP 地址设置 查看操作系统 的核心版本 uname -a 该命令除了能查看到操作系统的核 心版本
18、外, 还可以查看到主机的硬件 型号 主机的厂商ID 号 hostid 可以查看到厂商为主机设置的唯一 ID 统计系统当前 进程数量 ps -ef |wc -l 可以查看到系统当前进程数量 远程登录设置 grep ftp /etc/inetd.conf grep telnet /etc/inetd.conf 可以查看系统的远程登录是否打开 网络流通情况ping ping 网络中的另一设备,通常是缺 省网关, 以检查网络的流通延时情况 检查 SUN CLUSTER 管理 的双机系统状 态 scstat 该命令可以显示SUN CLUSTER 双机系 统的和配置、状态有关的信息 通过 Web方式 管理
19、 SUN CLUSTER 双机 系统 通过浏览其,输入主机的IP 地址, 端口号为 3000 ,可以通过Web的方 式管理 SUN CLUSTER 双机系统 存储及冗余软件相关检查及其命令 检查项目使用的命令及相关目录内容及其说明 外观检查无检查机器的指示灯情况、看有无故障指示 ST3x10 阵列检查无 通过串行口连接到阵列的串口,利用其设置 界菜单检查,具体的参数为:波特率38400, 数据位 8,停止位1,奇偶校验无,流控无 ST3x10 阵列检查(通过 sccli工具检查) show-config 连接了 ST3x10 阵列的主机, 如果安装了sccli 工具,通过输入sccli命令,选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统 健康 检查 服务 方案 资料
链接地址:https://www.31doc.com/p-5544196.html