机房应急预案

时间:2025-09-19 13:47:04
机房应急预案

机房应急预案

在学习、工作或生活中,有时会出现一些意料之外的事件或事故,为了减小事故造成的危害,时常需要预先制定应急预案。应急预案的格式和要求是什么样的呢?以下是小编收集整理的机房应急预案,欢迎大家分享。

机房应急预案1

为了应对各种突发和紧急事件,特制订以下方案。

一、突发和紧急事件指自然因素或其它原因引起(或可能引起)基站财产安全或较多基站中断的所有事件。

二、启动基站维护(紧急)组织实施方案的范围:梅雨季节地势低洼基站的防汛;雷电高峰期基站的动力抢修或抢险;大雪(暴雪)基站房屋及铁塔的维护及应急抢修工作;台风、地震前中后基站及铁塔的维护;传输或MSC(BSC)故障造成基站大面积故障,故障恢复后基站网络的测试。

三、启动基站维护(紧急)组织实施方案的条件:天气和各种地质灾害预报或由此可造成(或正在造成)基站的财产安全和网络稳定运行,网管统计发现大面积网络故障时必须立即启动基站维护(紧急)组织实施方案。

四、对于由自然因素可能引起的基站及分布系统站点的财产安全和网络稳定运行,得知地质或天气预报后,立即组织各代维项目部区和相关工程施工单位对所在地的站点进行预防性巡检,对于各种隐患要求各项目部现场及时上报给我公司灾害预防和处理应急领导小组和各地移动公司应急领导小组。

五、我公司应急领导小组成员和各代维项目部所有维护人员在重大灾害预防和抢险过程中的的移动电话必须24小时开机,必须无条件服从公司应急领导小组和代维项目经理统一安排,若某项目出现人员不足的情况下,公司临时从总部或异地抽调人员和车辆参加抢险;凡当地移动公司所辖站点不是我公司维的护站点出现重大险情后,我公司抗灾任务又不重时,各项目部要主动向移动请缨。

六、公司在每一次抗灾救险活动结束后

公司应急领导小组应对本次活动的成功经验和教训进行总结,对表现优秀的团队或个人进行表彰,表现较差的团队或个人进行处罚

七、重大灾害预防和抢险的人员组织机构:

领导小组由总经理,副总经理,各部门经理及地区经理组成,总经理为总指挥,各代维项目部也应成立相应成立相应的抗灾救险领导小组。

八、抗灾救险人员安排:

公司总部和各代维项目部应包括以下小组

1、通信保障组:在发生险情时提供移动通信应急保障,负责实施应急通信的详细方案、应急中所需的备品、备件、测试仪表、工具、技术资料的保管及预防性维护保障工作。

2、物资调拨组:负责所有应急物资日常保管、定期检查、更新以及应急时的调拨和运送。

3、抢险救灾组:负责应急时的.抢修和救灾方案的实施

九、值班制度

1、各代维项目部在启动抗灾救险预案后应实行24小时值班制度,设立固定值班地点和24小时值班热线。

2、全体应急人员保持24小时开机。

3、在接到上级关于进入应急状态的通知后,即由领导小组成员组成指挥中心。

十、体保障措施细则:

1、根据每年的雨情在进入梅雨季节后将基站及分布系统代维的工作重点转为重点机房、基站等重点防汛场所的巡视,故障处理。在遇到突发或紧急时间期间,加强对重点基站、低洼基站及传输机房的巡视,确保环境监控系统工作正常。重点基站及传输机房一周一次,低洼基站二周一次。台风期间每天对拉线塔进行巡检,并填写基站巡检表。

2、重点保障地点预置好防汛抢险物资。并给各维护小组配备部分随车抢险物资。如编织袋、铁锹、雨衣、雨靴、防火泥、防火包、手电等。对抽水泵,移动油机进行保养,确保其工作正常。对应急灯、应急手机定期充电。

3、出现连续暴雨或台风情况时,维护人员每天对重点站点及所有拉线塔进行巡视,填写基站巡检表。发现紧急情况立即通知我公司地区经理和移动代维管理人员,由代维管理人员上报移动部门领导,并赶赴现场确认,视情况确定是否安排专人(人员由综合部安排)进行24小时值守。

4、网管值班人员对环境监控设备出现的告警密切观察并记录,若确有异常情况发生,立即通知我代维人员赶赴现场检查。并追踪代维人员的处理情况和反馈结果,若发现代维人员未及时处理,我网管值班人员应立即向我公司和移动公司汇报。

5、进入汛期后由各项目部负责每天了解所在区域的水位情况,并通知网管值班人员,由网管值班人员通知我代维人员及移动代维管理人员,根据水位情况合理调度巡视队伍与车辆。

6、收到台风警报后,各项部项目经理立即组织代维人员对全区拉线塔进行巡检,发现异常发现紧急情况立即通知移动代维管理人员和我公司应急领导小组,视情况确定应急措施。

7、收到大雪或暴雪预报,组织维护人员对所辖基站中拉线塔基站、彩钢瓦基站进行重点巡检,当得到网管或其他人员通知所辖基站中有拉线塔基站、彩钢瓦基站出现故障或非正常情况,立即派抢修人员奔赴现场,并逐级上报。

机房应急预案2

核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。

组织架构:

责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。

机房电源系统说明:

1、机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。

2、机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。

3、机房现有两台60KVA-UPS电源,均处于正常运行状态。

4、机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。

5、运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时(已经过UPS放电测试)。

一、核心机房电源中断预案

1、在接到停电通知的情况下:

1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的`情况。

2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。

3)计划停电时间开始后,马上启动应急发电操 ……此处隐藏18844个字……开机。

实践证明,完善而适用的应急预案能保障向用户提供稳定的高性能计算服务。

6.结束语

完备而适用的应急预案能有效降低主机系统因意外事件发生带来的运行风险,对可能发生的意外来说,是一种事前防范措施。但对整个主机系统产品而言,是一种事后防范措施。如果主机系统生产厂商能把这些防范措施纳入整个系统设计过程中,使操作方法更加简便、更趋于人性化,这将帮助主机维护人员更为妥善处理意外事件,用户得到更为稳定的高性能计算服务。我们相信未来国产的高性能计算机能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1.断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

1.1打开机房门便于散热,..

1.2机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

机房的温度尽量降低。

1.3打开所有机柜前、后门。

1.4密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2.紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

2.1自断电发生起,已达到XX分钟仍未恢复供电;

2.2采取上述紧急通风措施,节点温度持续上升,超过XX℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3.紧急关机操作步骤:

注意事项:

3.1..

3.2关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

第一级操作:(首先执行)关闭主机系统外围设备..

第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足,完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注:

1.如时间非常紧急,UPS电池低于XX分钟:

直接执行关机脚本:..

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2.如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX),直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

3.如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

机房应急预案15

计算机机房作为所有业务、应用系统的核心,一旦计算机机房发生突发事件,将对单位的数据等造成严重损失。为此,特制订机房突发事件应急预案。

一、机房突发事件定义

机房突发事件是指由特殊原因引发威胁机房安全并且不能通过日常维护手段解决的事件。比如,火灾、漏电、断电等非人为或者人为的事件,重大突发事件发生后,应立即组织现场救护或临时处置,控制事态发展,最大限度地减少损失和影响。

二、机构和职责

机房突发事件应急小组单位领导:

机房突发事件应急小组部门领导:

机房突发事件应急小组成员:

各责任人职责:

应急小组单位领导:负责单位层面及范围内的.决策与领导。

应急小组部门领导:负责部门层面及范围内的决策与领导并组织实施突发事件预案。

应急小组成员:按岗位职责分工,听从指挥,服从安排全力以赴解决突发事件。

三、突发事件报警

应区分原因在第一时间报警。

自然灾害(火灾),拨打火警电话:119人为事件(非法盗取、攻击等)拨打匪警电话:110人员伤亡,拨打急救电话:120其他时间(断电等),拨打值班电话:

四、突发事件处理

突发事件发生后,应立即启动应急预案。

1、失火、漏水:

视事件的紧急程度,应急小组成员要在领导的指挥下,有组织、有顺序的备份数据、关闭服务器的电源;组织人力转移设备。如果自动设备未能正常启动,应在组长安排下首先切断机房的水、电路,组织人力采用灭火器等灭火设备人工灭火,同时要在第一时间报警。

2、断电:

在城电断电的情况下,机房的备用电力将发挥作用,电力供应最长可持续4小时。由于机房空调没有备用电力,如确认是供电局断电,应立即联系发电机发电;如果不是供电局断电,而是由于办公楼电力线路故障引起的断电,应立即通知电工查找原因,尽快排出故障。如果无法尽快恢复供电,在电力延续期间,应尽快结束未执行完毕的任务,如无法完成需及时备份数据,同时应关闭所有非必须服务器,尽量不让机房温度过高,保证网络设备的正常运行,以便保障集中在单位的应用系统能正常使用。

五、恢复生产

突发事件结束后,有关人员应首先对现场进行清理,汇总损失情况并上报各级领导。紧急召开专项会议分析损失情况,制定数据恢复计划。设备损失的要及时更换设备,保证恢复计划的顺利进行。

恢复生产后,系统管理员应对各系统进行自查,上报书面报告,并由部门领导汇总后上报单位领导。

机房管理员在恢复生产后要及时检查各项维持系统,如UPS、灭火器、漏水、漏电探测器等是否正常运行,应及时更换受损的元器件,补充灭火器的填充物。

《机房应急预案.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式