欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 幼儿/小学教育>
  • 中学教育>
  • 高等教育>
  • 研究生考试>
  • 外语学习>
  • 资格/认证考试>
  • 论文>
  • IT计算机>
  • 法律/法学>
  • 建筑/环境>
  • 通信/电子>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    应急预案通用标准处置tuxedoweblogic0809.docx

    • 资源ID:83275       资源大小:99.22KB        全文页数:50页
    • 资源格式: DOCX        下载积分:5
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录 微博登录
    二维码
    微信扫一扫登录
    下载资源需要5
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    应急预案通用标准处置tuxedoweblogic0809.docx

    1、修改记录编号日期描述版本作者审核发布日期12021-6-15建立文档王荔22021-7-20增加 2.2.14.WebLogic重启时报JMS Store错误庹艳林32021-8-9增加:1、nodemanager的标准处置GMW006、GMW007和故障应急方案;2、修订GMW003;3、增加BBL进程异常退出的故障应急方案庹艳林4 567891011如无中国建设银行的书面许可,任何人都无权复制或利用。Copy Right 2005 by China Construction Bank1. 通用标准处置快速索引1.1. 通用标准处置 Tuxedo和WebLogic Server主要包含中间件

    2、故障场景的通用标准处置General Middleware System:编号通 用 标 准 处 置索 引GMT001TUXEDO中间件标准关闭GMT002TUXEDO中间件非标准关闭GMT003使用Tuxedo命令强行停止Tuxedo应用GMT004使用操作系统命令强行停止Tuxedo应用GMT005TUXEDO中间件标准重启GMT006TUXEDO域相关进程停止GMT007TUXEDO域相关进程启动GMT008TUXEDO域间连接手动断开GMT009TUXEDO域间连接手动重连GMT010TUXEDO应用进程非标准停止GMT011TUXEDO应用进程标准重启GMW001WebLogic实例

    3、标准停止通过CCSD完成,主推采用CCSDGM012GMW002WebLogic实例标准停止通过启动脚本完成GM013GMW003WebLogic 实例强行停止GM014GMW004WebLogic 实例标准重启通过CCSD完成,主推采用CCSDGM015GMW005WebLogic 实例标准重启通过脚本完成GM016GMW006启动WebLogic NodemanagerGMW007停止WebLogic NodemanagerGMXXX1.2. 通用处置 Tuxedo和WebLogic Server1.2.1. GMT001:TUXEDO中间件标准关闭处置名称:TUXEDO中间件标准关闭处置

    4、时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响2技术影响:无3其它影响: 无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmshutdown y验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资源处置步骤有些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看输出结果,正

    5、常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.2. GMT002:TUXEDO中间件非标准关闭处置名称:TUXEDO中间件非标准关闭处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响,影响正在处理中的交易2技术影响:无3其它影响: 无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3执行tmshutdown yc w11

    6、为等待时间,单位秒,超过1秒等待,效劳进程将被强行停止验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资源处置步骤有些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看输出结果,正常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.3. GMT

    7、003:使用Tuxedo命令强行停止Tuxedo应用处置名称:使用Tuxedo命令强行停止Tuxedo应用处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响,影响正在处理中的交易2技术影响:无3其它影响: 无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3使用tuxedo命令tmipcrm y强行停止效劳进程验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资源处置步骤有

    8、些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看输出结果,正常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.4. GMT004:使用操作系统命令强行停止Tuxedo应用处置名称:使用操作系统命令强行停止Tuxedo应用处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响: 与行内系统交互受影响,影响正在处理中的交易2技术影

    9、响:无3其它影响: 无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3使用操作系统kill -9命令强行杀掉效劳进程4使用操作系统ipcrm -q msqid -m shmid -s semid命令去除相关IPC资源验证步骤:1) 执行操作系统命令ipcs|grep xxx用户2) 查看输出结果,正常情况下应该仅有标题输出,没有内容3) 如果有输出内容,参考操作系统去除IPC资源处置步骤有些IPC资源是应用程序创立的,能否去除请参考应用程序的相关处置标准4) 执行操作系统命令ps ef | grep xxx用户5) 查看输出结果,正

    10、常情况下应该不存在Tuxedo的效劳进程如GWTDOMAIN、BBL等存在6) 如果有存活的TUXEDO进程,那么执行kill -9 pid来杀掉这些进程。修订日期:2021年7月20日 修订人:庹艳林 1.2.5. GMT005:TUXEDO中间件标准重启处置名称:TUXEDO中间件标准重启处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmboot -y验证步骤:1) 执行tmadmin

    11、2) 在tmadmin窗口下执行psr3) 检查Current Service列输出,正常情况下,状态是IDLE或者是应用效劳的名字4) 如果出现DEAD状态,请参考Tuxedo效劳进程异常退出core dump故障场景处置步骤5) 检查Tuxedo ULOG文件或者是应用日志文件,验证应用效劳进程启动成功关键字该步骤可选,强烈推荐选用修订日期:2021年5月8日 修订人: 王荔 1.2.6. GMT006:TUXEDO域相关进程停止处置名称:TUXEDO域相关进程停止处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:

    12、无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤4) 执行tmshutdown s GWTDOMAIN5) 执行tmshutdown s GWADM6) 执行tmshutdown s DMADM验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3 检查Prog Name列输出,输出项中没有上述3个进程修订日期:2021年5月8日 修订人: 王荔 1.2.7. GMT007:TUXEDO域相关进程启动处置名称:TUXEDO域相关进程启动处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1

    13、业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmboot s DMADM4) 执行tmboot s GWADM5) 执行tmboot s GWTDOMAIN验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3) 检查Prog Name列输出,输出项中有上述3个进程,Current Service一列输出为IDLE修订日期:2021年5月8日 修订人: 王荔 1.2.8. GMT008:TUXEDO域连接手动断开处置名称:TUXEDO域连接

    14、手动断开处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行dmadmin4) 在dmadmin命令行窗口,执行dco d 验证步骤:1)执行dmadmin2)在dmadmin命令行窗口下执行pd d ;Connected domains输出显示没有可用连接修订日期:2021年5月8日 修订人: 王荔 1.2.9. GMT009:TUXEDO域连接手动重连处置名称:TUXEDO域连接手动重连处置时间:x

    15、分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3执行dmadmin4在dmadmin命令行窗口,执行co d 验证步骤:1)执行dmadmin2)在dmadmin命令行窗口下执行pd d ;Connected domains输出显示有可用连接,验证连接是否正常修订日期:2021年5月8日 修订人: 王荔 1.2.10. GMT010:TUXEDO应用进程非标准停止处置名称:TUXEDO应用进程非标准停止处置时间:x分钟

    16、该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:当前交易与已排队请求受影响2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmshutdown s -y w1验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3) 检查Prog Name列输出,输出项中没有响应的效劳进程修订日期:2021年5月16日 修订人: 王荔 1.2.11. GMT011:TUXEDO应用进程标准重启处置名称:TUXEDO应用进程标准重启处置时间:x分钟该时间因系统而异,请各根据

    17、实际停止时间填写影响分析:1业务影响:无 2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 根据需求执行环境变量文件该步骤可选,需要的系统请明示步骤3) 执行tmboot s 验证步骤:1) 执行tmadmin2) 在tmadmin窗口下执行psr3) 检查Current Service列输出,正常情况下,状态是IDLE或者是应用效劳的名字4) 如果出现DEAD状态,请参考Tuxedo效劳进程异常退出core dump故障场景处置步骤5) 检查Tuxedo ULOG文件或者是应用日志文件,验证应用效劳进程启动成功关键字该步骤可选,强烈推荐选用修订日期:20

    18、21年5月16日 修订人: 王荔 1.2.12. GMW001:WebLogic实例标准停止通过CCSD完成,主推CCSD处置名称:WebLogic实例标准停止通过CCSD完成,主推采用CCSD处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过CCSD平台以xxx用户登录xxx2执行停止WebLogic实例3如果停止整个Domain,需要先停止被管效劳器,然后停止管理效劳器验证步骤:通过CCSD平台验证修订日期:2021年5月8日 修订人: 王荔 1.2.13. GMW002:WebLogic实例标

    19、准停止通过脚本完成包括通过node manager停止处置名称:WebLogic实例标准停止通过脚本完成处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2执行停止WebLogic实例的脚本各应用系统自己定义3如果停止整个Domain,需要先停止被管效劳器,然后停止管理效劳器验证步骤:1) 执行操作系统ps命令,ps ef|grep java|grep xxx用户,检查java进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTE

    20、N,检查监听端口是否存在修订日期:2021年5月8日 修订人: 王荔 1.2.14. GMW003:WebLogic实例强行停止处置名称:WebLogic实例强行停止处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2ps ef|grep java|grep xxx(用户),找到要停止的WebLogic Server实例的进程ID3如果实例不是由node manager启动的,那么执行操作系统kill命令,kill -9 杀掉进程。4)如果实例是由node manag

    21、er启动的,先按照GMW007停止node manager,然后执行操作系统kill命令,kill -9 杀掉WebLogic进程,最后按照GMW006启动node manager。验证步骤:1) 执行操作系统ps命令,ps ef|grep java|grep xxx用户,检查java进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTEN,检查监听端口是否存在修订日期:2021年5月8日 修订人: 王荔 1.2.15. GMW004:WebLogic实例标准重启通过CCSD完成,主推采用CCSD处置名称:WebLogic实例标准重启通过CCSD完成,主推

    22、采用CCSD处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互受影响2技术影响:无3其它影响:无操作步骤: 1通过CCSD平台以xxx用户登录xxx2执行启动WebLogic实例3如果重启整个Domain,需要先重启管理效劳器,然后启动被管效劳器验证步骤:通过CCSD验证修订日期:2021年5月8日 修订人: 王荔 1.2.16. GMW005:WebLogic实例标准重启通过脚本完成包括通过node manager停止处置名称:WebLogic实例标准重启处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:与行内系统交互

    23、受影响2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2执行启动WebLogic实例的脚本各应用系统自己定义3如果重启整个Domain,需要先重启管理效劳器,然后启动被管效劳器验证步骤:1) 执行操作系统ps命令,ps ef|grep java|grep xxx用户,检查java进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTEN,检查监听端口是否存在3) 可选检查WebLogic实例状态,必须是RUNNING修订日期:2021年5月8日 修订人: 王荔 1.2.17. GMW006:WebLogic Nodemanage

    24、r实例标准重启通过脚本完成处置名称:WebLogicNodemanager实例标准重启处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1通过SOM平台以xxx用户登录xxx2执行启动WebLogic Nodemanager实例的脚本各应用系统自己定义,建议放在操作系统的自启动效劳里,在操作系统启动时跟随着自动启动。验证步骤:1) 执行操作系统ps命令,ps ef|grep |grep xxx用户,检查nodemanager进程是否存在2) 执行操作系统netstat命令,netstat an|grep LISTEN,检查

    25、监听端口是否存在修订日期:2021年8月9日 修订人: 庹艳林 1.2.18. GMW007:WebLogic Nodemanager实例标准停止通过脚本完成处置名称:WebLogicNodemanager实例标准停止处置时间:x分钟该时间因系统而异,请各根据实际停止时间填写影响分析:1业务影响:无2技术影响:无3其它影响:无操作步骤: 1) 通过SOM平台以xxx用户登录xxx2) 执行操作系统ps命令,ps ef|grep |grep xxx用户,获得nodemanager进程的进程号pid.3) 执行kill -9 pid杀掉node manager验证步骤:1) 执行操作系统ps命令,

    26、ps ef|grep |grep xxx用户,检查nodemanager进程是否存在修订日期:2021年8月9日 修订人: 庹艳林 2. 故障场景快速索引2.1. 故障场景-通用软件说明:主要包含操作系统、数据库软件、中间件等方面的故障场景:序号故 障 场 景索 引 1Tuxedo效劳进程异常退出core dump2Tuxedo BBL进程异常退出core dump3Tuxedo效劳进程请求排队4Tuxedo ULOG日志文件中有关键字告警5WebLogic实例异常退出core dump6WebLogic实例内存溢出OOM7WebLogic实例占用CPU高8WebLogic实例没有响应hang

    27、9WebLogic实例翻开文件数太多Too many open files10WebLogic Server线程池异常11WebLogic JDBC连接池状态异常12WebLogic JMS Pending消息积压13已部署应用的状态异常14WebLogic Server日志中有关键字告警15WebLogic重启时报JMS Store错误16WebLogic NodeManager挂起或者异常退出N2.2. 通用软件故障场景2.2.1. Tuxedo效劳进程异常退出core dump事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tux

    28、edo可用效劳数量减少,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo应用效劳进程异常宕机,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:影响正在进行中的交易启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 保存core 文件3) 保存Tuxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机

    29、保护现场;使用操作系统file core命令,检查具体是哪个Tuxedo效劳进程出现异常退出5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4Tuxedo类应用,应用效劳进程异常退出,都配置有自动重启功能,遇到可用效劳数量减少这个问题时,一般是自动重启次数到达最大限制,不能再自动重启导致;调用GMT011重启Tuxedo应用效劳进程x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年5月16日 修订人:王荔2.2.2. Tuxedo BBL进程异常退出core dump事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX

    30、系统:生产主机:xxxxxxx:BBL的进程数量为:0,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:影响交易超时的交易,并且无法自动拉起异常死掉的TUXEDO应用进程启动条件:无现场保护:4) 通过SOM平台以xxx用户登录xxx系统5) 保存core 文件6) 保存Tuxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场;使用操作系统ps ef | grep BBL命令,确认BBL效劳进程已经不存在。并且确认当前

    31、没有执行停止TUXEDO应用程序的命令。5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4设置TUXEDO运行时需要的TUXCONFIG、TUXDIR等环境变量后,进入tmadmin,然后执行bbc子命令。执行ps ef | grep BBL检查BBL启动是否成功。并执行TUXEDO应用程序的健康检查。x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束。等待交易空闲时段重新启动整个TUXEDO应用程序。修订日期:2021年8月15日 修订人:庹艳林2.2.3. Tuxedo效劳进程请求排队事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX

    32、系统:生产主机:xxxxxxx的Tuxedo效劳进程xxxx请求排队,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo应用交易超时,当前值为:xxxx,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:影响正在进行中和后续接入的交易启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 执行监控脚本采集cpu/psr/pq/ipcs/netstat等信息各应用系统根据操作系统的不同修订监控脚本3) 保存Tuxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号

    33、处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场;5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4调用GMT002/010非标准停止Tuxedo或者是有问题的应用效劳进;如果非标准停止失败,需要强行停止所有Tuxedo应用,调用GMT003/004 x分钟T5调用GMT005/011重启Tuxedo或者是应用效劳进程x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年6月15日 修订人:王荔2.2.4. Tuxedo ULOG日志文件中有关键字

    34、告警事件级别:六级授权级别:部室负责人授权场景描述:主要告警管理X部:XXXX系统:生产主机:xxxxxxx的Tuxedo ULOG日志文件匹配到x个关键字,告警阀值为:x-x,发生时间xxxxxxxxxxx,原始信息xxxxxx业务影响:影响正在进行中和后续接入的交易启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 执行监控脚本采集cpu/psr/pq/ipcs/netstat等信息各应用系统根据操作系统的不同修订监控脚本3) 保存Tuxedo ULOG文件故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运

    35、维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场;二线运维支持人员初步分析是否与数据库相关,如果相关,执行应急预案 5分钟T3同时二线运维支持人员联系工程组共同分析、解决问题10分钟T4调用GMT002/010非标准停止Tuxedo或者是有问题的应用效劳进程;如果非标准停止失败,调用强行停止GMT003/004x分钟T5调用GMT005/011重启Tuxedo或者是应用效劳进程x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年6月15日 修订人:王荔2.2.5. WebLogic实例异常退出core dump事件级别:六级授权

    36、级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例效劳不可连接当前值为:Offline,告警阀值为:x-x,发生时间xxxxxxxxxxx业务影响:已经在故障实例上运行的业务有影响;如果WebLogic实例有多个,单一实例不可连接,不影响后续业务,如果超过50%的实例都不可连接,那么影响业务。启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 使用操作系统ps ef|grep java|grep xxx,检查java进程数量3) 如果java进程数量没有问题,请参考故障处置4) 保存core 文件和文本core文件a) core

    37、文件缺省情况下在目录下,根据操作系统的安装配置标准,标准存放coredump文件的目录是/home/coredump,在上述两个目录下找到core文件b) HP平台,Linux平台上使用SUN JDK,保存目录下的hs_err_pid.logc) Linux平台上使用JRockit,保存目录下的jrockit.dumpd) AIX平台上,保存目录下javacore.txt5) 保存WebLogic Server日志、标准输出日志如果有故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用

    38、xxx用户登录xxx主机,使用操作系统ps ef|grep java|grep xxx,检查java进程数量 2分钟T3如果java进程数量没有问题,调用故障处置5分钟T4如果java进程数量有问题,保护现场,调用GMW004/005标准启动WebLogic实例x分钟T5恢复正常后报告部室负责人,当日值班经理,应急处置结束修订日期:2021年5月15日 修订人:王荔2.2.6. WebLogic实例内存溢出OOM事件级别:六级授权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的JVM使用的堆栈空间当前值为:xx.xx,告警阀值为:x-x,发生时间xxx

    39、xxxxxxxx 主要告警管理X部:XXXX系统:生产主机:xxxxxxx的实例OutOfMemory告警,不可连接当前值为:Offline,告警阀值为:x-x,发生时间xxxxxxxxxxx 日志告警业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护:1) 通过SOM平台以xxx用户登录xxx系统2) 保存Heapdump文件、GC日志文件、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx

    40、主机,保护现场2分钟T3如果没有heapdump文件,二线运维支持人员判断是否可以动态生成heapdump文件,如果可以,动态生成heapdump文件3分钟T4调用GMW003强行停止故障WebLogic实例2分钟T5调用GMW004/005标准启动WebLogic实例x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月15日 修订人:王荔2.2.7. WebLogic实例占用CPU高事件级别:六级授权级别:部室负责人授权场景描述: 主要告警管理X部:XXXX系统:生产主机: xxxxxxx的JVM当前CPU利用率当前值为:100,告警阀值为:x-x,发生时

    41、间xxxxxxxxxxx业务影响:发送到或者已经在故障实例上运行的业务有影响。启动条件:无现场保护:1) 调用如下脚本采集线程CPU信息和进程的Thread dump:a) AIX平台b) HP平台c) Linux平台d) 上述脚本供参考,需根据应用需要调整sleep参数等注意像AIX上的dbx/tprof,HP上glance命令是否有权限执行2) 保存GC日志、Heapdump文件、WebLogic Server日志、标准输出日志故 障 场 景 应 急 处 置序号调用处置编号 处 置 简 要 描 述时间树T1收到集中监控的报警后,通知二线运维支持人员,当日值班经理,部室负责人1分钟T2使用xxx用户登录xxx主机,保护现场5分钟T3如果没有heapdump文件和GC日志,二线运维支持人员判断是否可以动态生成,如果可以,动态获得GC信息和Heapdump文件5分钟T4调用GMW003强行停止故障WebLogic实例2分钟T5调用GMW004/005标准启动WebLogic实例x分钟T6恢复正常后报告部室负责人,当日值班经理,应急处置结束。修订日期:2021年5月16日 修订人:王荔2.2.8. WebLogic


    注意事项

    本文(应急预案通用标准处置tuxedoweblogic0809.docx)为本站会员(奥沙丽水)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!




    宁ICP备18001539号-1

    三一文库
    收起
    展开