HP小型机服务器应急处理方案.pdf
《HP小型机服务器应急处理方案.pdf》由会员分享,可在线阅读,更多相关《HP小型机服务器应急处理方案.pdf(25页珍藏版)》请在三一文库上搜索。
1、. . HP小型机应急处理方案 系统开、关机简介 一般地说,系统开关机应严格遵循以下步骤: 1. 开机顺序 1). 打开总电源。 2). 打开计算机机柜电源 3). 打开外部设备电源.(如磁盘阵列 ,磁带库等 ) 4). 最后打开主机电源. 2. 关机顺序 1). 进行操作系统的关闭(#shutdown -h -y 0) 2). 关闭主机电源 . 3). 关闭外设电源 .(如磁盘阵列,磁带库等) 4). 关闭其他设备电源和机柜电源; 5). 最后关闭总电源。 日常维护检查 在对广大客户的支持服务中,我们经常发现,由于种种原因,客户往往未能及时发现系统中的一些异常现 象,最终导致了对系统和应用的
2、重大影响。 为了帮助客户各有效、方便地管理系统,我们设计了日常检查维护表,希望能够帮助广大用户加强日 常管理,从而做到防患于未然,尽可能保障系统的运行。 我们分成以下几个部分进行介绍: 使用指南: 如何使用表格,如何使用相关命令进行检查。 同时由于客户的配置千变万化,允许HP 客户支持工程师和客户共同对表格和指南进行定制。 日常检查表 . . 日常维护检查使用指南 在日常维护检查表中,我们把日常的检查分成以下几个部分: 硬件操作系统备份 应用 我们下面分别描述各类检查的内容和方法。HP 支持工程师和客户可以一起定制这份指南,例如,定制要检 查那些应用日志和进程等等。 硬件 在这部分中,我们检查
3、以下内容: 1:面板指示: 在大多数的服务器中,都由一个液晶面板,显示服务器的执行状态。在正常情况下,应该是FxxF 的格式。 在系统出现故障时,会出现WARNING 或 FAULT 的提示。具体请参见技术指南。 系统管理员应该定期检查该指示,确认系统正常工作;否则,应该立即联系HP 公司。 2:服务器中的各个扩展卡的指示灯 在服务器中,存在多种扩展卡,例如,SCSI 卡(连接SCSI 设备),以太网卡等。这些卡都由一个或多个 指示灯。从这些指示灯可以了解这些卡的工作情况。 具体情况,请参见各个卡的说明书。 SCSI 卡: 在正常情况下,自检灯(self test)应该是暗的;终结电源指示灯(
4、Terminator PWR )是亮的 以太网卡: 在正常情况下,自检灯(self test)应该是暗的;连接灯(Link )是亮的 其他卡: 3:外设的状态 大部分外设也都由自己的状态指示。下面是比较常见的几种: M10,M20,M30 磁盘阵列 这些磁盘阵列,正常情况下,硬盘的指示灯:应该是绿色;如果变成黄色,则说明该磁盘发生故障。 . . 维修灯( Service Lamp): 应该是绿色;如果变成黄色,则说明该阵列中存在故障部件。例如,硬盘故障。 AutoRAID 磁盘阵列 该磁盘阵列有一个液晶面板。如果出现故障,在面板上会出现Warning 提示信息。 磁带库 磁带库一般也有一个液晶
5、面板。如果出现故障,在面板上会出现报错信息。 其他外设 XP256:该外设实全冗余的如果有部件发生故障,会自动通过DDN 拨号到美国技术中心。 4:其他硬件检测: 在 N4000 中,有一个attention 灯,正常情况下,该灯应该是暗的。如果是黄色的,则说明系统中存在一些 问题。 操作系统 在这一部分,通过一些实用、简单的命令,检查系统的情况: 1.控制台(console )显示 在系统出现问题时,常常会在控制台上显示一些出错信息。系统管理员应该定期检查这些信息。这往往是 最方便的方式。 另外,在使用完毕后,应该确保退出控制台,从而避免一些安全性问题。 2.命令 “dmesg” 系统中存在
6、一个错误缓冲区,系统将自检信息和遇到的错误、报警放在该缓冲区中。 我们可以通过dmesg命令,阅读该缓冲区。 在正常情况下,该缓冲区只应该包含自检信息。如果出现了warining 、error 或者是一些不熟悉的信息,应 该仔细检查或通知HP 服务人员。 3.命令 “uptime ” 该命令显示了系统自从上次重启以来运行的时间。通过该命令,可以知道系统是否发生了异常的重启。 4.命令 “bdf ” . . 系统中文间系统过满,有时会导致系统工作不正常。我们可以用该命令显示了文件系统的使用情况。 如果发现某个文件系统过满,需要及时采取措施,或者删除无用的信息,或者扩大该文件系统。 5.命令 “m
7、ail ” 系统在发现问题时,往往会把一些信息发给root 用户。 系统管理员应该定期检查root 的 mail 信息,以确认系统中不存在异常。 6.日志 “/var/adm/syslog/syslog.log” 该日志文件中包含一些重要的维护信息。系统管理员应该定期用more 或者 vi 命令,检查该文件。 系统管理员如果发现warning 、error、failure 以及一些不熟悉的信息,应该提高警惕。 7.命令 “cmviewcl ” 对于运行了双机备份软件的用户而言,应该定期检查系统的运行情况。 确认应用包、节点和网络均正常工作。 8.其他命令 用 netstat in 检查网络状况
8、,尤其是ATM 网卡。 备份 系统管理员应该检查: o 是否按照计划完成了备份备份过程是否正常 o 应用 系统管理员也应该养成定期检查应用的习惯。在支持服务中,操作系统工作正常,但用户应用由于种种原 因无法正常工作的例子并不罕见。 根据具体情况,系统管理员应该检查: o应用的日志文件 o 组成应用的主要进程的执行情况,例如数据库的DBWR,LGWR 等等。 日常检查维护表 . . 日常维护检查表 日期 检查人 检查内容检查结果 硬件主机面板指示 扩展卡指示灯: 各个卡的自检灯(self test) 以太网卡的LINK 灯 SCSI 卡的 TERMINATION PWR灯 其他卡 1 其他卡 2
9、 外设状态: M10/20/30 的硬盘的指示灯 M10/20/30 的维修( Service)灯 AutoRAID 的面板 磁带库的面板 其他外设 1 其他外设 2 其他硬件检测1 其他硬件检测2 操作 系统 控制台(console )显示 Demsg 命令 uptime 命令 bdf 命令 root mail 命令 cmviewcl 命令 /var/adm/syslog/syslog.log 其他命令1 其他命令2 . . 应用应用的日志 应用的进程1 应用的进程2 应用的进程3 备份备份是否完成 备份过程是否正常 注释 :检查过程是否碰到问题? 系统有多少CPU 或 MEMORY SAM
10、-performance monitor-system property-processer or memory 文件系统维护 文件系统是操作系统中的重要组成部分,由于系统需要经常的对文件系统进行操作,当文件系统空间满了 或者有问题时,容易引起系统运行异常,因此客户应当经常对文件系统进行维护。 具体的维护方法主要是通过bdf 命令来观察各个文件系统的使用情况,如果某个文件系统的使用率超过一 定限度(一般为90%)时,应该采取行动删除此文件系统内无用的文件或者扩充文件系统的空间大小。 请参见下面的 “HP -UX 技术专题 -逻辑卷与文件系统” 。 逻辑卷管理 根据以上介绍,在HPUX 下正确使
11、用硬盘的顺序及相应命令如下: 1.先建物理卷 # pvcreate -f /dev/rdsk/cCdDtT 这里必须使用硬盘的字符设备文件 2.再建逻辑卷组 . . # mkdir /dev/vg0X X:0f,逻辑卷组名 # mknod /dev/vg0X/group c 64 0x0X0000 # vgcreate vg0X /dev/dsk/cCdDtT 3.然后划分逻辑卷 # lvcreate -L size n /dev/vg0X/lvolY vg0X size:该逻辑卷大小 4.在 LV 上建文件系统 # newfs -F file_system_type /dev/vg0X/rl
12、volY file_system_type:文件系统类型,包括hfs 和 vxfs,注意此时用该逻辑卷的字符设备文件。 5.将此文件系统Mount 到一个目录下 # mkdir /directory # mount /dev/vg0X/lvolY /directory 到此为止,您已经可以使用这个硬盘了。有时您可能在现有的环境下,需要添加、删除逻辑卷,或者是需 要扩大文件系统。我们可以这样做: 6.添加逻辑卷 1)添加文件系统卷。 例如:在 vg01 上添加一个200M 的文件系统卷, 卷名为 data, mount 到目录 /sample 上。 A.创建逻辑卷,在系统提示符下键入命令: #
13、lvcreate -L 200 -n data /dev/vg01 B.在逻辑卷 data 上创建文件系统: # newfs -F hfs /dev/vg01/rdata 注:如果是vxfs 文件系统,则用 # newfs -F vxfs /dev/vg01/rdata C.创建目录 /sample,并将逻辑卷data mount 到/sample. # mkdir sample # mount /dev/vg01/data /sample D.用 bdf 命令,将会看到/dev/vg01/datamount 到 /sample上。 2)添加非文件系统卷(raw data volume)。例同
14、上。 A.创建逻辑卷,在系统提示符下键入命令: # lvcreate -L 200 -n data /dev/vg01 . . 7.删除逻辑卷 例如:删除vg01 中名为data 的逻辑卷, mount 到/sample。 1)卸载所要删除的逻辑卷: A.首先用umount 命令将逻辑卷data 从/sample上卸载下来 : # umount /sample B.若系统提示设备忙,不能卸载;则在根目录系统提示符下,键入以下命令,进入单用户: # shutdown -y 0 C.在单用户下,先将所有文件系统mount 上,键入命令: # mount -a D.用 bdf 命令看该逻辑卷是否已经
15、mount 上,如果mount 上,键入以下命令: # umount /sample 2)删除逻辑卷/dev/vg01/data ,用命令: # lvremove /dev/vg01/data 8.扩大文件系统 1)扩大文件系统, 首先要找到这个文件系统所对应的逻辑卷,只有首先扩大逻辑卷,给文件系统以扩大的 空间,才能扩大文件系统。 2)为扩大逻辑卷,先进单用户,在根目录系统提示符下,键入命令: # shutdown -y 0 3)进入单用户后,先将所有文件系统mount 上,键入命令: # mount -a 4)用 bdf 命令看该文件系统是否已经mount 上,如果 mount 上,用命令
16、#umount 文件系统名umount 该文 件系统。例如,想要扩大“/usr ”到 500M ,就键入命令: # umount /usr 5)用命令: # lvextend -L 500 /dev/vg00/lvol4 这里,假定/usr 对应/dev/vg00/lvol4 6)用命令: # extendfs /dev/vg00/lvol4 扩大文件系统。 注:如果是vxfs 文件系统,则用 # extendfs -F vxfs /dev/vg00/lvol4 7)用命令:# mount /dev/vg00/lvol4 /usr 将文件系统mount 到 /usr,这样,文件系统“/usr
17、”就被扩大了, . . 8)用命令: # init 3 进入原来多用户运行级。 网络系统维护 同用户和用户组管理一样,维护网络系统可以用命令行的方式执行,但推荐用户使用SAM 管理。 1. 相关配置文件 1). 主机名定义文件:/etc/hosts文件格式如下: internet address official host name aliases internet address: IP 地址 official host name : 主机名 aliases: 别名 例如: 192.45.36.5 hdxsg testhost 2). 主机网络配置文件:/etc/rc.config.d/ne
18、tconf 文件,主要内容如下: INTERFACE_NAME0=lan1 网卡设备 IP_ADDRESS0=“ IP地址 SUBNET_MASK0=“ 子网掩码 BROADCAST_ADDRESS0=“ 广播地址 2. 相关管理命令 1). 查看所有网卡设备:lanscan,参见系统维护常用命令及工具之“ 常用命令 ” ; 2). 查看、配置某个网卡:ifconfig ,参见系统维护常用命令及工具之“ 常用命令 ” ; 3). 查看网络状态:netstat,参见系统维护常用命令及工具之“ 常用命令 ” ; 4). 增加动态路由 route add, 显示如下: route add desti
19、nation gateway metric 5). 删除动态路由 route delete, 显示如下: route delete destination gateway 6). 配置静态路由- /etc/rc.config.d/netconf, 显示如下: 将需要配置的路由信息按照文件规定格式写入此文件,注意路由设置的编号不能重复。 7). 更改主机 IP 地址 A. 首先使用 “lanscan ”和“ifconfig”命令查出该网卡的设备名 B. 使用 vi 命令编辑 /etc/rc.config.d/netconf 文件。找到 INTERFACE_NAME0=lan1 IP_ADDRES
20、S0=“ . . SUBNET_MASK0=“ BROADCAST_ADDRESS0=“ 将原有的 IP 地址和 SUBNET_MASK改成新值 C. 使用 vi 命令编辑 /etc/hosts文件,改变对应主机名的IP 地址 注意:不要在CDE 环境中,直接改变IP 地址,应退出CDE 环境,完成修改过程。 8). 其它命令 hostname,nslookup,ping, linkloop 等 硬件维护常识 1. 开机顺序 一般地说,系统开关机应严格遵循以下步骤: - 打开总电源。 - 打开计算机机柜电源 - 打开外部设备电源(如磁盘阵列 ,磁带库等 ) - 待外部设备自检完成后,最后打开主
21、机电源. 2. 关机顺序 - 进行操作系统的关闭(shutdown -h -y 0) - 关闭主机电源 . - 关闭外设电源 .(如磁盘阵列,磁带库等) - 关闭其他设备电源和机柜电源; - 最后关闭总电源。 3. 电缆连接注意事项 在进行电缆连接(插拔)时,最重要的一点是,通过该电缆连接(或将要连接)的设备应当是没有加电 的,即应当先将设备的电源关掉,然后再进行电缆连接(插拔)操作。否则,如果带电进行电缆连接,会 造成对设备无法预料的损坏。 4. 硬件故障诊断 在此介绍简单的常见故障处理。 - 电缆连接 注意计算机及各外设之间连线接触良好,不要无故拔插电缆;如果发生计算机不能识别某个设备,有
22、可能 是电缆的接触问题。 - 硬件状态指示灯 如果发现系统工作不正常,可以观察硬件状态指示灯的情况。 开机后系统将自动完成自测试,诊断及引导启动代码。检测顺序大致为:高速缓存,中央处理器,总线, 内存, I/O 设备。当检测到相关的硬件时,对应的显示灯会亮。 硬盘,软盘,磁带机及光盘驱动器自检时,能从前面板上看到相应的灯亮一下,表明系统已经识别到上述 设备。相反,如果某驱动器的自检灯没亮,很可能是该设备有问题。 . . 另外,主机背后的SCSI 接口卡及网络接口卡上的自检指示灯亮为正常状态。否则,可能该接口卡有问题。 如果发现这种问题,请马上与HP 联系,考虑更换备件。 - 错误代码 每次开机
23、后,系统都会进行硬件自检及初始化,假如系统出现硬件故障,一般都不能正常启动,并在液 晶显示屏及控制台上相应的显示出错误代码及出错信息。 若屏幕上出现ERROR 且液晶显示上出现FLT ,表明有故障发生,应根据上述提示确定故障点。 绝大部分硬件错误都能在自检时暴露出来,在液晶显示及控制台的左下角都有四位错误代码:FLT xxxx 。 分析这四位代码可以进一步检测出故障。发现这种问题,请马上与HP 联系,分析相应的故障原因。 HP 设备运行环境要求 1. 机房总体要求 1) 机房应避免下列因素: - 温 度: 20 25 , 最 佳 22 - 电磁场 - 磁场 - 腐蚀性气体 - 易燃物或易燃性气
24、体 - 爆炸物品 - 湿气 2). 计算机的前后左右应有足够的散热空间。 3). 窗密封,机房场地保持清洁。 4). 房避免阳光直射。 5). 内不可铺设地毯,以防静电。 6). 无线电杂波干扰应低于0.5V/米。 2. 电源要求 1) 电压和频率容许变动范围: 电 压:单相交流,220V +4, -8 (198232V) . . 频 率: 50Hz +/- 0.5Hz 2) 瞬间电压波动不能超过220V+/-15% ,且必须在 25 个周期 (0.5 秒)恢复,对于磁盘存储设备则需在 三个周期内恢复。 3) 总谐波 (Harmonic) 成分不得高于5%。 4) 瞬间脉冲电压 (Impuls
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HP 小型机 服务器 应急 处理 方案
链接地址:https://www.31doc.com/p-5212980.html