lunes, 29 de octubre de 2012

Procedimientos: su Impacto e Importancia al Data Center


Cuando nos referimos a los procedimientos de emergencia de un Data Center muchas veces no se toma en consideración las implicancias de ejecutarlos erróneamente o simplemente no tenerlos. Para ejemplificarlo voy a relatar un caso  real ocurrido un par de años atrás en una empresa a la que asesoraba eventualmente sobre algunos temas de IT, que por razones de discrecionalidad no revelaré.
En el verano de 2010 dicha organización disponía de una buena infraestructura para poder soportar interrupciones eléctricas, aunque no siempre todo sale según lo planeado.
El Data Center está ubicado en un 9no piso de un edificio bastante viejo que contaba con un piso técnico, una UPS capaz de soportar la carga total con una autonomía de 15 minutos y sistema de refrigeración por expansión directa (DX). En ese momento había 17 Racks a un consumo promedio de 9 kVA cada uno. El aire acondicionado y las UPS consumían 30 kVA, lo que en total sumaba un consumo de 183 kVA. Además es edificio poseía un generador que había sido adquirido 10 años atrás con una capacidad operativa de 200 kVA, si bien no era de lo más moderno estaba bien mantenido y las dos veces anteriores que se había usado, respondió adecuadamente.
Un sábado caluroso de verano a las 19:00 ocurre el imprevisto: se corta la red eléctrica. Como el Data Center estaba bien planificado no se presentaron problemas, ya que las UPS habían sido correctamente mantenidas y funcionaron sin problemas, pasaron 8 minutos y como la electricidad seguía sin funcionar se encendió el generador normalmente. A los 14 minutos las baterías de la UPS agotaron su carga completamente, pero como el generador ya estaba funcionando, comenzó a brindar energía eléctrica a los equipos del Data Center….hasta allí iba todo perfecto, porque en consumo total del Data Center era 183 kVA y la potencia máxima del generador era 200 kVA. Pese a lo inconveniente de la situación, no había ningún impacto, pero ocurrió lo inesperado…… a alguien se le ocurrió usar el ascensor !!!!
La ignición del motor del generó un pico de consumo eléctrico de 30 kVA que superó el máximo de carga del generador, saturando el sistema eléctrico y causando una interrupción total en el Data Center.
En el gráfico se puede apreciar el pico de consumo eléctrico que generan los elevadores en promedio cuando inician el ascenso según el peso de la carga:


Como consecuencia se apagaron abruptamente todos los equipos del Data Center, lo que causó la rotura de dos discos rígidos, una fuente de alimentación y muchas horas de trabajo para los administradores que tuvieron que encender los equipos manualmente cuando regresó la energía eléctrica una hora después. Debido al horario, el impacto al negocio no fue muy grande.

¿Qué medidas se debería haber tomado para que no pase ese incidente?
Definir y aplicar un procedimiento de emergencia para aplicar en casos de interrupción eléctrica, en el cual, los responsables del edificio deberían haber procedido como cuando se evacua el edificio en caso de incendio, enviado los ascensores a planta bajar y abrir las puertas, dejándolos fuera de funcionamiento hasta que se restaure el servicio eléctrico. Dicha acción hubiera evitado la interrupción en el Data Center, no todo se reduce a la planificación de los recursos, sino que también es importante la forma de usarlos adecuadamente.