Mostrando entradas con la etiqueta Recuperacion Desastres. Mostrar todas las entradas
Mostrando entradas con la etiqueta Recuperacion Desastres. Mostrar todas las entradas

lunes, 8 de mayo de 2017

Continuidad del negocio en el Data Center

Al desarrollar un plan de recuperación, el objetivo es regresar la operación del negocio al nivel en que estaba el día antes de la catástrofe. Si su negocio es tomar pedidos por medio de una línea telefónica y continuar con la entrega de productos, el esfuerzo de recuperación debería estar dirigido hacia el restablecimiento de la operación telefónica y la conexión del personal a los sistemas de procesamiento informático y telefónico, lo cual permitirá que continúen los envíos.
El plan final podrá incluir una instalación redundante en otro sitio remoto que tenga acceso a los datos obtenidos de las copias de seguridad. Si la operación no es tan crítica o la instalación redundante no ha sido considerada por razones presupuestarias, es imprescindible un buen plan de recuperación.
Cada hora perdida decidiendo sobre un enfoque o experimentando con diferentes técnicas es una hora de interrupción al negocio que genera pérdidas.
Las empresas deberán desarrollar un plan integral, de forma artesanal para así enfrentar las consecuencias el día del desastre, ya que no existe una solución única, sino que es propia de cada empresa, diseñada a medida.

Un BCP no es un plan del área de IT solamente, sino que involucra a toda la empresa por completo desde la restauración de servidores hasta las tareas operativas, ejecutivas y directivas.

En el plan interactúan las personas de la organización con la tecnología, los procesos y la infraestructura.
Ciclo de vida del Plan de Continuidad del Negocio:




  • Análisis y planificación: cuando se inicia el proyecto se debe tener en consideración todo el negocio por completo, haciendo un estudio de necesidades y evaluando la situación actual. Luego, se debe hacer un minucioso análisis de riesgos del impacto al negocio (BIA, Business Impact Analysis), análisis de pérdidas, cuantificación de consecuencias, etcétera e identificar las aplicaciones críticas, que forman el núcleo operativo: inventarios de aplicaciones y servidores, diagramas de red e infraestructura. Adicionalmente, hay que identificar los posibles escenarios y análisis de amenazas. En esta etapa, se definirán bajo qué condiciones se activarán los procesos de contingencia y cómo será el camino que se tome para volver a la situación de operación normal.
  • Diseño de solución: se buscará la manera en que se pueda llevar a cabo el plan de contingencia de manera integral desarrollando una estrategia de mitigación. Debe ser comunicado correctamente a todas las áreas, preferentemente siguiendo los estándares. Además se procederá con la elaboración de una lista de prioridades con un orden específico y se confeccionará un checklist para los equipos con identificación de contactos internos y proveedores clave. Se definirán los equipos y los procesos de recuperación así como la selección de la estrategia de backup y los objetivos de los tiempos de recuperación (RTO). Asimismo se establecerá el tiempo máximo de interrupción tolerable (MTPOD), el punto de recuperación objetivo (RPO), la forma de interactuar y los roles clave. 
    • RPO: refleja el punto tolerable de restauración de los datos. Por ejemplo, se define si es aceptable contar con los datos de las 00:00 h del día en que ocurre el desastre, o si se prefiere las 00:00 h del último domingo de la semana en que ocurrió el desastre. Obviamente esto está relacionado con la solución de backup elegida, que será detallada más adelante en este capítulo.
    • RTO: es el tiempo en que se desean tener los datos recuperados y disponibles. Por ejemplo, en cinco horas, diez horas, etcétera.
    • MTPOD: es el tiempo aceptable de recuperación total. Luego de haber alcanzado el RTO, queda pendiente restaurar las operaciones al punto normal. Esto puede requerir configuraciones adicionales que agregan más tiempo a la restauración del servicio.
  • Implementación: es el desarrollo del plan, incluye la puesta en marcha de un ejercicio de simulación, que quizás para empresas chicas o medianas pueda ser inviable por razones presupuestarias, pero que son realmente importantes, como los ejercicios de evacuación de incendios en los edificios, entrenamiento, documentación y capacitación. Es recomendable que todas las tareas sean coordinadas por un Comité de Crisis que debe estar previamente designado y conformado por personas que conozcan bien el negocio, tengan poder y capacidad para tomar decisiones.  Lo importante se debe anteponer a lo urgente, ya que una mala decisión puede ser contraproducente.
  • Testeo y aceptación: en el momento de ejecución del ejercicio de simulación o cuando se  activa el BCP, realmente, la comunicación entre todas las partes tiene un rol fundamental para alcanzar el éxito. Se deberá hacer la verificación, corroborar los pasos correctos, determinar desvíos, identificar puntos débiles, análisis de costos y luego tomar medidas correctivas, llamadas lecciones aprendidas (lesson learned). Ellas realimentarán el proceso de diseño de la solución a fin de introducir mejoras.Es recomendado hacer una prueba completa de todo el BCP al menos una vez al año, aunque pueden hacerse pruebas parciales con menor frecuencia para probar nuevas tecnologías o soluciones parciales para ciertos eventos.
  • Mantenimiento: se debe comunicar y mantener actualizado el plan aprobado, asegurando que el personal esté debidamente entrenado. Hay que mantener un monitoreo continuo para el establecimiento de políticas estratégicas, además de identificar nuevas tecnologías o cambios operativos, legales, regulatorios directivos que permitan mejorar el diseño de la solución.

Se recomienda tener un repositorio de versiones y además un documento de control de cambios entre las distintas versiones para ver de manera simple cuales fueron las mejoras introducidas.
Sin duda estas planificaciones requieren dedicación de recursos, tiempo, recolección de información, infraestructura, etcétera, que en definitiva es dinero, pero si la catástrofe ocurre las consecuencias económicas serían mucho peores.


RTO: Recovery Time Objective. Se mide en horas.
MTPOD: Maximum Tolerable Period of Distruption. Se mide en horas
RPO:Recovery Point Objective es el objetivo deseado de recuperación.

martes, 26 de enero de 2016

Hollywood ya sabe la importancia del Data Center

Una de las funciones básicas de un Data Center bien diseñado es eliminar los riesgos potenciales que causarían pérdidas evitables, y minimizar el impacto de las no evitables como las catástrofes naturales. Las empresas que sufren situaciones de desastre en sus sistemas, quedan con un daño irreversible que puede llevar a la compañía a su cierre parcial o, en algunos casos, definitivo.

Los guionistas de cine y  televisión ya son consientes que para eliminar completamente a "los malos", no solo basta con deshacerse de los personajes, sino que también deben destruir su Data Center.

Una investigación de la Universidad de Texas revela que de las empresas que sufren una pérdida masiva en sus sistemas de información, el 43% nunca vuelve a abrir, el 51% cierra antes de los dos años, y solo el 6% puede continuar con su actividad, enfrentando grandes pérdidas en sus sistemas de información.
Según otro informe de la Agencia Nacional de Archivos y Registros en Washington D.C. (National Archives and Records Administration), el 93% de los negocios que tienen una interrupción importante en sus Data Center por más de 10 días, quedan en bancarrota en menos de un año.
La contundencia de estos números deja a la vista cuán importante son los datos de las empresas para poder permanecer con las puertas abiertas.

Tratando de no spoilear películas, a continuación les dejo algunos casos donde para que "los buenos" derroten a "los malos" y tengamos un final feliz con nuestras panzas llenas de pochoclo (también llamadas palomitas), el protagonista debe destruir el Data Center enemigo para poder derrotarlo definitivamente.

  • Terminator 2 (1991): Terminator personificado por Arnold Schwarzenegger junto con Sarah y John Connor logran convencer al científico  Miles Dyson que deben volar el laboratorio de investigación de Cyberdyne Systems, junto con toda la información existente con fin de destruir por completo a Skynet (los malos). Pese a que todo termina con una gran explosión, cuando los planes salen perfectos, los guionistas aprovechar a dejar puertas abiertas para futuras zagas. 
  • Prision Break - Temp 4 (2009): Los hermanos Michael Scofield y Lincoln Burrow, luego de tres temporadas deciden que deben destruir a "Scylla" un repositorio de información ultrasecreto ultraprotegido que guarda los mayores pecados de los malos.
  • Ant-Man (2015):  Dr. Hank Pym quiere evitar que una tecnología de avanzada que el mismo descubrió, caiga en las manos equivocadas debido a su gran potencial (en este caso Darren Cross). Para ello se propone destruir el Data Center de Pym Technologies (el laboratorio que el mismo creo) así como también todos los datos almacenados en los backups.

Los invito a dejar comentarios en este post de otras películas donde las destrucción del Data Center sea sinónimo de acabar con los malos.



martes, 7 de octubre de 2014

Recuperación de Desastres en el Data Center


Desarrollar un plan de recuperación tiene como objetivo regresar a la operativa del negocio al mismo nivel en el que estaba antes de la catástrofe. Si su negocio es tomar pedidos por medio de una línea telefónica y continuar con la entrega de productos, el esfuerzo de recuperación debería estar dirigido hacia el restablecimiento de la operación telefónica y la conexión del personal a los sistemas de procesamiento informático y telefónico, lo cual permitirá que continúen los envíos.
El plan final podrá incluir una instalación redundante en otro sitio remoto que tenga acceso a los datos obtenidos de las copias de seguridad. Si la operación no es tan crítica o la instalación redundante no ha sido considerada por razones presupuestarias, es imprescindible un buen plan de recuperación.


Un Data Center de respaldo consiste en un sitio de contingencia que reemplazará al de producción solo con las aplicaciones definidas como críticas para el BCP (Business Continuity Plan). A continuación se describen las características de los cuatro tipos de Data Centers que se pueden utilizar para el diseño de un plan de recuperación de desastres:

  • Data Center de contingencia estándar: Consiste en disponer de un espacio físico vacío con la capacidad de contener y soportar las aplicaciones pertenecientes al grupo de DR; preparado con la estructura eléctrica y de refrigeración mínima para cubrir la contingencia de esos equipos. Se debe considerar  con la posibilidad de que los equipos se demoren en conseguir en la zona, por ejemplo, Firewalls (cortafuegos) o algún reemplazo similar. Este método tiene un costo bajo, salvo por el desaprovechamiento del espacio, pero los tiempos de restauración son muy lentos (de días a semanas), ya que se debe conseguir el equipamiento, armar la infraestructura, luego instalar las aplicaciones; y finalmente, restaurar los datos de las cintas.
  • Data Center en la nube: Utiliza los servicios ofrecidos por los proveedores basados en Internet o a través de un enlace punto a punto por medio de un proveedor que ofrezca una conexión privada. Los costos son menores y la velocidad de instalación de los nuevos servidores es muy rápida, están basados en máquinas virtuales, pero lo que demandará más tiempo será la restauración de los datos, porque las cintas de contingencia deben ser enviadas hacia el proveedor, también habrá que restaurar las aplicaciones; y luego, restaurar los datos.
  • Data Center asincrónico (mirror off-line): Consiste en tener otro Data Center duplicado en una ubicación remota en donde se replican todos los servidores críticos de manera asincrónica. Esto puede realizarse en un sitio privado o contratado por a algún proveedor, pero con la salvedad de que los datos de esas aplicaciones críticas se copian al Data Center de contingencia de manera automática fuera del horario de operatoria diaria; por ejemplo, por las noches, mediante diversas herramientas. Tiene un costo alto, ya que todos los servidores están disponibles, pero sólo se utiliza la red dedicada para la transferencia de datos al Data Center de respaldo cuando no afecta las operaciones en horario central; por lo cual, en caso de desastre, el tiempo de recuperación es menor a un día. Generalmente este servicio es empleado por empresas que procesan sus operaciones más importantes en servidores Mainframe, del rubro bancario, por ejemplo, ya que en caso de desastre no pueden quedarse sin operar, y tener un Mainframe de respaldo resulta impráctico debido a su altísimo costo, pudiendo costar varios millones de dólares solo un Mainframe.
  • Data Center sincrónico (mirror on- line): Llamado espejado o (mirroring), es una estrategia donde en el Data Center de respaldo propio o rentado a algún proveedor replica todos los datos de la aplicaciones críticas, tomándolos desde el Data Center de producción, de modo constante en tiempo real, copiando bloque a bloque; de manera tal, que si ocurre un desastre, la recuperación es instantánea, pudiendo tomar tan solo algunos minutos. Es la estrategia más rápida y costosa, ya que requiere tener todos los servidores duplicados y exige tener un gran ancho de banda disponible solo para la copia de los datos en tiempo real. Por lo que los costos en infraestructura de red son altos, además del mantenimiento e la implementación del software encargado de hacer que esa replicación funcione: Softek de IBM, Stream de Oracle, u otras soluciones provistas por los fabricantes de la SAN. Está claro que este tipo de soluciones están reservadas para empresas grandes que manejan presupuestos de infraestructura millonarios y no pueden sufrir interrupciones en la operatoria de sus servicios debido a sus altísimos costos.

Importante: Si se elige una estrategia sincrónica es fundamental que dicho proceso sea monitoreado constantemente a fin de corregir los desvíos, ya que de nada sirve una inversión tan grande para luego tener problemas de inconsistencia de datos por problemas de sincronismo.
Ambas estrategias, asincrónicas o sincrónicas son válidas mientras sean adecuadas entre el balance de costo y tiempo de RTO (Recovery Time Objective), adecuando el tipo de método de replicación elegido, ya sea por SAN, por red o a nivel de servidores o de base de datos, ya que los tiempos de recuperación de datos por medio de las cintas magnéticas son lentos para las necesidades de negocio de muchas empresas.
Los fabricantes de SAN como EMC, IBM, HP, Hitachi o Dell, entre otros ofrecen soluciones de replicación que se ajustan a cualquiera de los dos tipos. También para replicación por red a nivel de sistema operativo o replicación por red con productos que optimizan el tráfico de manera segura y eficiente.

Para decidir cuál va a ser la metodología elegida para el Data Center de contingencia, se deberán analizar los costos por las pérdidas y los costos por la implementación de la solución, además de la variación en horas por cada tipo de solución sobre la base de la complejidad de las aplicaciones que se restaurarán.