Mostrando entradas con la etiqueta Procedimientos. Mostrar todas las entradas
Mostrando entradas con la etiqueta Procedimientos. Mostrar todas las entradas

lunes, 8 de mayo de 2017

Continuidad del negocio en el Data Center

Al desarrollar un plan de recuperación, el objetivo es regresar la operación del negocio al nivel en que estaba el día antes de la catástrofe. Si su negocio es tomar pedidos por medio de una línea telefónica y continuar con la entrega de productos, el esfuerzo de recuperación debería estar dirigido hacia el restablecimiento de la operación telefónica y la conexión del personal a los sistemas de procesamiento informático y telefónico, lo cual permitirá que continúen los envíos.
El plan final podrá incluir una instalación redundante en otro sitio remoto que tenga acceso a los datos obtenidos de las copias de seguridad. Si la operación no es tan crítica o la instalación redundante no ha sido considerada por razones presupuestarias, es imprescindible un buen plan de recuperación.
Cada hora perdida decidiendo sobre un enfoque o experimentando con diferentes técnicas es una hora de interrupción al negocio que genera pérdidas.
Las empresas deberán desarrollar un plan integral, de forma artesanal para así enfrentar las consecuencias el día del desastre, ya que no existe una solución única, sino que es propia de cada empresa, diseñada a medida.

Un BCP no es un plan del área de IT solamente, sino que involucra a toda la empresa por completo desde la restauración de servidores hasta las tareas operativas, ejecutivas y directivas.

En el plan interactúan las personas de la organización con la tecnología, los procesos y la infraestructura.
Ciclo de vida del Plan de Continuidad del Negocio:




  • Análisis y planificación: cuando se inicia el proyecto se debe tener en consideración todo el negocio por completo, haciendo un estudio de necesidades y evaluando la situación actual. Luego, se debe hacer un minucioso análisis de riesgos del impacto al negocio (BIA, Business Impact Analysis), análisis de pérdidas, cuantificación de consecuencias, etcétera e identificar las aplicaciones críticas, que forman el núcleo operativo: inventarios de aplicaciones y servidores, diagramas de red e infraestructura. Adicionalmente, hay que identificar los posibles escenarios y análisis de amenazas. En esta etapa, se definirán bajo qué condiciones se activarán los procesos de contingencia y cómo será el camino que se tome para volver a la situación de operación normal.
  • Diseño de solución: se buscará la manera en que se pueda llevar a cabo el plan de contingencia de manera integral desarrollando una estrategia de mitigación. Debe ser comunicado correctamente a todas las áreas, preferentemente siguiendo los estándares. Además se procederá con la elaboración de una lista de prioridades con un orden específico y se confeccionará un checklist para los equipos con identificación de contactos internos y proveedores clave. Se definirán los equipos y los procesos de recuperación así como la selección de la estrategia de backup y los objetivos de los tiempos de recuperación (RTO). Asimismo se establecerá el tiempo máximo de interrupción tolerable (MTPOD), el punto de recuperación objetivo (RPO), la forma de interactuar y los roles clave. 
    • RPO: refleja el punto tolerable de restauración de los datos. Por ejemplo, se define si es aceptable contar con los datos de las 00:00 h del día en que ocurre el desastre, o si se prefiere las 00:00 h del último domingo de la semana en que ocurrió el desastre. Obviamente esto está relacionado con la solución de backup elegida, que será detallada más adelante en este capítulo.
    • RTO: es el tiempo en que se desean tener los datos recuperados y disponibles. Por ejemplo, en cinco horas, diez horas, etcétera.
    • MTPOD: es el tiempo aceptable de recuperación total. Luego de haber alcanzado el RTO, queda pendiente restaurar las operaciones al punto normal. Esto puede requerir configuraciones adicionales que agregan más tiempo a la restauración del servicio.
  • Implementación: es el desarrollo del plan, incluye la puesta en marcha de un ejercicio de simulación, que quizás para empresas chicas o medianas pueda ser inviable por razones presupuestarias, pero que son realmente importantes, como los ejercicios de evacuación de incendios en los edificios, entrenamiento, documentación y capacitación. Es recomendable que todas las tareas sean coordinadas por un Comité de Crisis que debe estar previamente designado y conformado por personas que conozcan bien el negocio, tengan poder y capacidad para tomar decisiones.  Lo importante se debe anteponer a lo urgente, ya que una mala decisión puede ser contraproducente.
  • Testeo y aceptación: en el momento de ejecución del ejercicio de simulación o cuando se  activa el BCP, realmente, la comunicación entre todas las partes tiene un rol fundamental para alcanzar el éxito. Se deberá hacer la verificación, corroborar los pasos correctos, determinar desvíos, identificar puntos débiles, análisis de costos y luego tomar medidas correctivas, llamadas lecciones aprendidas (lesson learned). Ellas realimentarán el proceso de diseño de la solución a fin de introducir mejoras.Es recomendado hacer una prueba completa de todo el BCP al menos una vez al año, aunque pueden hacerse pruebas parciales con menor frecuencia para probar nuevas tecnologías o soluciones parciales para ciertos eventos.
  • Mantenimiento: se debe comunicar y mantener actualizado el plan aprobado, asegurando que el personal esté debidamente entrenado. Hay que mantener un monitoreo continuo para el establecimiento de políticas estratégicas, además de identificar nuevas tecnologías o cambios operativos, legales, regulatorios directivos que permitan mejorar el diseño de la solución.

Se recomienda tener un repositorio de versiones y además un documento de control de cambios entre las distintas versiones para ver de manera simple cuales fueron las mejoras introducidas.
Sin duda estas planificaciones requieren dedicación de recursos, tiempo, recolección de información, infraestructura, etcétera, que en definitiva es dinero, pero si la catástrofe ocurre las consecuencias económicas serían mucho peores.


RTO: Recovery Time Objective. Se mide en horas.
MTPOD: Maximum Tolerable Period of Distruption. Se mide en horas
RPO:Recovery Point Objective es el objetivo deseado de recuperación.

lunes, 29 de octubre de 2012

Procedimientos: su Impacto e Importancia al Data Center


Cuando nos referimos a los procedimientos de emergencia de un Data Center muchas veces no se toma en consideración las implicancias de ejecutarlos erróneamente o simplemente no tenerlos. Para ejemplificarlo voy a relatar un caso  real ocurrido un par de años atrás en una empresa a la que asesoraba eventualmente sobre algunos temas de IT, que por razones de discrecionalidad no revelaré.
En el verano de 2010 dicha organización disponía de una buena infraestructura para poder soportar interrupciones eléctricas, aunque no siempre todo sale según lo planeado.
El Data Center está ubicado en un 9no piso de un edificio bastante viejo que contaba con un piso técnico, una UPS capaz de soportar la carga total con una autonomía de 15 minutos y sistema de refrigeración por expansión directa (DX). En ese momento había 17 Racks a un consumo promedio de 9 kVA cada uno. El aire acondicionado y las UPS consumían 30 kVA, lo que en total sumaba un consumo de 183 kVA. Además es edificio poseía un generador que había sido adquirido 10 años atrás con una capacidad operativa de 200 kVA, si bien no era de lo más moderno estaba bien mantenido y las dos veces anteriores que se había usado, respondió adecuadamente.
Un sábado caluroso de verano a las 19:00 ocurre el imprevisto: se corta la red eléctrica. Como el Data Center estaba bien planificado no se presentaron problemas, ya que las UPS habían sido correctamente mantenidas y funcionaron sin problemas, pasaron 8 minutos y como la electricidad seguía sin funcionar se encendió el generador normalmente. A los 14 minutos las baterías de la UPS agotaron su carga completamente, pero como el generador ya estaba funcionando, comenzó a brindar energía eléctrica a los equipos del Data Center….hasta allí iba todo perfecto, porque en consumo total del Data Center era 183 kVA y la potencia máxima del generador era 200 kVA. Pese a lo inconveniente de la situación, no había ningún impacto, pero ocurrió lo inesperado…… a alguien se le ocurrió usar el ascensor !!!!
La ignición del motor del generó un pico de consumo eléctrico de 30 kVA que superó el máximo de carga del generador, saturando el sistema eléctrico y causando una interrupción total en el Data Center.
En el gráfico se puede apreciar el pico de consumo eléctrico que generan los elevadores en promedio cuando inician el ascenso según el peso de la carga:


Como consecuencia se apagaron abruptamente todos los equipos del Data Center, lo que causó la rotura de dos discos rígidos, una fuente de alimentación y muchas horas de trabajo para los administradores que tuvieron que encender los equipos manualmente cuando regresó la energía eléctrica una hora después. Debido al horario, el impacto al negocio no fue muy grande.

¿Qué medidas se debería haber tomado para que no pase ese incidente?
Definir y aplicar un procedimiento de emergencia para aplicar en casos de interrupción eléctrica, en el cual, los responsables del edificio deberían haber procedido como cuando se evacua el edificio en caso de incendio, enviado los ascensores a planta bajar y abrir las puertas, dejándolos fuera de funcionamiento hasta que se restaure el servicio eléctrico. Dicha acción hubiera evitado la interrupción en el Data Center, no todo se reduce a la planificación de los recursos, sino que también es importante la forma de usarlos adecuadamente.