Data Centers Hoy

sábado, 11 de julio de 2015

Diseño de pasillos y más.....

Han pasado más de 22 años desde que el Dr Robert Sullivan creó por primera vez el diseño de pasillo frío/pasillo caliente mientras trabajaba en como investigador para los laboratorios de IBM.
Años después formalizaría ese diseño para luego convertirlo prácticamente en un standard indiscutible al día de la fecha. En su trabajo "Alternating cold and hot aisles provides more reliable cooling for server farms" publicado en 2002 se explican como ubicar y orientar los racks en el Data Center para optimizar el uso de los sistemas de enfriamiento.

El diseño y la ubicación de los Racks dentro del área del Data Center es vital para lograr una optimización de eficiencia en la refrigeración.
Los Racks deben estar todos alineados formando pasillos opuestos unos con otros, enfrentando la parte delantera de una fila con la parte delantera de la otra. De esa forma, quedan diseñados pasillos intercalados: uno frío y uno caliente, alternadamente. El pasillo por donde sale el aire caliente de los Racks deberá estar en forma opuesta a la siguiente fila. Los equipos toman el aire frío por la parte frontal y expulsan el aire caliente por la parte trasera.

En el gráfico, se muestra la disposición de los pasillos. El pasillo frío se encuentra refrigerado por el aire que ingresa por el frente de los Racks a través de las rejillas de ventilación (que pueden venir por debajo del piso técnico y de alimentación superior), y luego el aire caliente es expulsado por la parte trasera de los Racks, para reingresar a las unidades de enfriamiento, también conocidas como CRAC (Computer Room Air Conditioning).

En estos dispositivos, monitorean y mantienen controlada tanto la temperatura como la humedad dentro del Data Center. Poseen una entrada por donde ingresa el aire caliente y una salida por donde expulsa el aire frío. Las unidades de enfriamiento deben estar coordinadas entre sí de forma tal que funcionen de modo sincronizado, haciendo un esfuerzo cooperativo, y donde la distribución de la carga es equitativa, maximizando así la vida útil de los componentes y balanceando la energía consumida.

Si estamos armado un Data Center desde cero, la mejor estrategia de optimización de espacio es inversa a la lógica convencional de diseñar primero las paredes, las columnas y puertas en un espacio vacío que luego será amoblado con cientos de equipos computacionales. Es decir, lo que se debería hacer en primer lugar, es diseñar la disposición de los Racks, ubicación de pasillos (fríos y calientes), equipos de refrigeración, etcétera. Una vez dispuesto el diseño de la distribución de todos los elementos, es el momento de colocar las paredes, puertas y columnas en el plano. De esta forma, se logrará un máximo aprovechamiento del espacio físico, evitando así espacios muertos inutilizables.

Para tener un mejor rendimiento en los equipos de aire acondicionado, hay que disminuir el consumo eléctrico y mantener la temperatura controlada. Se recomienda hacer una aislación completa entre los pasillos, ya sea al comienzo o al final de los Racks, colocando puertas para poder acceder al pasillo aislado. Dicha separación de pasillos impide que el aire se mezcle, mejorando la temperatura y disminuyendo el consumo.

Sobre la base de las recomendaciones de la norma TIA/EIA-942, los pasillos fríos deben tener 1,20 m de ancho (hasta 0,9 es aceptado), y deberán tener una temperatura no mayor a los 25°C. Por otra parte, los pasillos calientes deben tener 0,9 m de ancho (hasta 0,6 es aceptado), funcionando a una temperatura que puede oscilar entre 36°C y 47°C, dependiendo de la carga y el uso de los Racks en ese pasillo.

En próximos artículos hablaremos de la importancia de la circulación del flujo del aire entrante y saliente.

lunes, 23 de febrero de 2015

El incremento en la densidad de los Data Centers

Uno de los mayores desafíos que enfrentan los responsables de los Data Centers es el aumento de la densidad de consumo kW por rack, ya que por un lado requieren se mayor suministro eléctrico y al mismo tiempo se genera más calor en la misma superficie, debido a las tendencias de optimización que evolucionan permanentemente.
El motor impulsor principal de esos cambios es el avance tecnológico de los componentes de los servidores (en especial procesadores y memorias). Hoy en día existen dispositivos con mayores prestaciones, que funcionan en espacio mas reducido, pero que generan más calor en comparación con el espacio que ocupaban los mismos equipos un tiempo atrás.
Otro actor importante que tomó un rol protagónico hace ya unos años es la virtualización, que permite aprovechar los recursos ociosos.

Para poner un ejemplo, para realizar tareas de procesamiento centralizado 2005 un Data Center tradicional con 315 servidores de 2U cada uno requería unos 15 racks en promedio y podría tener un consumo promedio total de 4 kW por rack. Actualmente esa misma capacidad de cálculo puede ser reemplaza por 21 servidores que ocupan un solo rack, pero que tiene un consumo de 11 kW por rack

A medida que pasan los años, se produce una reducción de la superficie ocupada dentro del Data Center, eso hace que también aumente la densidad de cables por cada rack, y la capacidad de enfriamiento debe ser superior, ya que la densidad del calor generado tiene más concentración.
Si bien el costo de la inversión inicial del nuevo equipamiento puede ser elevado, se deben evaluar cuáles son los costos totales asociados al su funcionamiento a lo largo de la vida útil, ya que las capacidades de los procesadores aumentan permanentemente. La clave es encontrar el punto de equilibrio entre la inversión, la vida útil proyecta, el TCO y la disponibilidad deseada, para renovar los equipos periódicamente, y así producir ahorros a mediano o largo plazo

Uno de los primeros pasos que se debe seguir cuando se releva información sobre el Data Center ya existente o próximo a construir, es la definición del consumo de kW/rack actual, y el estimado para los próximos años. De esa forma, se determinará la densidad de calor generado por rack medido en kW, lo cual no es una tarea sencilla ya que no todos los rack tiene el mismo consumo, por ejemplo los equipos te comunicaciones, red, telefonía generan muy poco calor. Por el contrario, los servidores, que tienen muchos procesadores en un espacio reducido generarán más calor. Por eso, hay que identificar los distintos consumos por rack.

Luego de tener una clara definición de cuánto calor genera cada rack, hay que establecer la estrategia de refrigeración. En particular, al momento de la ubicación, conviene definir diferentes tipos de zonas o identificar posibles riesgos. Una vez efectuado esto, también es necesario saber la densidad de calor generado kW/m² y la densidad promedio kW sobre la superficie total del Data Center. Esa información nos ayudará a definir la estrategia de refrigeración que elegiremos.

En los Data Centers actuales es común encontrar racks que tiene un consumo de 20 kW o más. Esta es una tendencia en aumento a partir del año 2004 con la aparición de servidores de 1U y los servidores Blade

Clasificación según el consumo promedio por Rack:

Densidad baja (tradicional): 1 a 3 kW
Densidad moderada (promedio actual): 3 a 8 kW (hasta 2 servidores Blade)
Densidad media (tendencia): 9 a 14 kW (hasta 3 servidores Blade)
Densidad alta: 15 a 20 kW (hasta 4 servidores Blade)
Densidad extrema: más de 20 kW

Si bien la virtualización simplifica la tarea de los administradores de los servidores, y permite agilizar el área de IT con menores costos, para los responsables de la infraestructura de los Data Centers es un arma de doble filo, ya que para aprovechar la solución mencionada de forma ideal, se deberá reemplazar el hardware existente, comprando equipos más potentes y pequeños, que también generan más calor en una superficie menor. Además, éstos pueden requerir actualización en la infraestructura de red ya que en estas soluciones requieren redes de alta velocidad y grandes capacidades de almacenamiento para aprovechar todas las ventajas que ofrecen los productos.

Con el aumento de la concentración de la cantidad de cables que entran y salen a cada rack, es fundamental tenerlos prolijamente ordenados para que el flujo de aire no se vea obstruido y se dificulte el correcto flujo de circulación de aire frío y aire caliente.

martes, 7 de octubre de 2014

Recuperación de Desastres en el Data Center

Desarrollar un plan de recuperación tiene como objetivo regresar a la operativa del negocio al mismo nivel en el que estaba antes de la catástrofe. Si su negocio es tomar pedidos por medio de una línea telefónica y continuar con la entrega de productos, el esfuerzo de recuperación debería estar dirigido hacia el restablecimiento de la operación telefónica y la conexión del personal a los sistemas de procesamiento informático y telefónico, lo cual permitirá que continúen los envíos.
El plan final podrá incluir una instalación redundante en otro sitio remoto que tenga acceso a los datos obtenidos de las copias de seguridad. Si la operación no es tan crítica o la instalación redundante no ha sido considerada por razones presupuestarias, es imprescindible un buen plan de recuperación.

Un Data Center de respaldo consiste en un sitio de contingencia que reemplazará al de producción solo con las aplicaciones definidas como críticas para el BCP (Business Continuity Plan). A continuación se describen las características de los cuatro tipos de Data Centers que se pueden utilizar para el diseño de un plan de recuperación de desastres:

Data Center de contingencia estándar: Consiste en disponer de un espacio físico vacío con la capacidad de contener y soportar las aplicaciones pertenecientes al grupo de DR; preparado con la estructura eléctrica y de refrigeración mínima para cubrir la contingencia de esos equipos. Se debe considerar con la posibilidad de que los equipos se demoren en conseguir en la zona, por ejemplo, Firewalls (cortafuegos) o algún reemplazo similar. Este método tiene un costo bajo, salvo por el desaprovechamiento del espacio, pero los tiempos de restauración son muy lentos (de días a semanas), ya que se debe conseguir el equipamiento, armar la infraestructura, luego instalar las aplicaciones; y finalmente, restaurar los datos de las cintas.
Data Center en la nube: Utiliza los servicios ofrecidos por los proveedores basados en Internet o a través de un enlace punto a punto por medio de un proveedor que ofrezca una conexión privada. Los costos son menores y la velocidad de instalación de los nuevos servidores es muy rápida, están basados en máquinas virtuales, pero lo que demandará más tiempo será la restauración de los datos, porque las cintas de contingencia deben ser enviadas hacia el proveedor, también habrá que restaurar las aplicaciones; y luego, restaurar los datos.
Data Center asincrónico (mirror off-line): Consiste en tener otro Data Center duplicado en una ubicación remota en donde se replican todos los servidores críticos de manera asincrónica. Esto puede realizarse en un sitio privado o contratado por a algún proveedor, pero con la salvedad de que los datos de esas aplicaciones críticas se copian al Data Center de contingencia de manera automática fuera del horario de operatoria diaria; por ejemplo, por las noches, mediante diversas herramientas. Tiene un costo alto, ya que todos los servidores están disponibles, pero sólo se utiliza la red dedicada para la transferencia de datos al Data Center de respaldo cuando no afecta las operaciones en horario central; por lo cual, en caso de desastre, el tiempo de recuperación es menor a un día. Generalmente este servicio es empleado por empresas que procesan sus operaciones más importantes en servidores Mainframe, del rubro bancario, por ejemplo, ya que en caso de desastre no pueden quedarse sin operar, y tener un Mainframe de respaldo resulta impráctico debido a su altísimo costo, pudiendo costar varios millones de dólares solo un Mainframe.
Data Center sincrónico (mirror on- line): Llamado espejado o (mirroring), es una estrategia donde en el Data Center de respaldo propio o rentado a algún proveedor replica todos los datos de la aplicaciones críticas, tomándolos desde el Data Center de producción, de modo constante en tiempo real, copiando bloque a bloque; de manera tal, que si ocurre un desastre, la recuperación es instantánea, pudiendo tomar tan solo algunos minutos. Es la estrategia más rápida y costosa, ya que requiere tener todos los servidores duplicados y exige tener un gran ancho de banda disponible solo para la copia de los datos en tiempo real. Por lo que los costos en infraestructura de red son altos, además del mantenimiento e la implementación del software encargado de hacer que esa replicación funcione: Softek de IBM, Stream de Oracle, u otras soluciones provistas por los fabricantes de la SAN. Está claro que este tipo de soluciones están reservadas para empresas grandes que manejan presupuestos de infraestructura millonarios y no pueden sufrir interrupciones en la operatoria de sus servicios debido a sus altísimos costos.

Importante: Si se elige una estrategia sincrónica es fundamental que dicho proceso sea monitoreado constantemente a fin de corregir los desvíos, ya que de nada sirve una inversión tan grande para luego tener problemas de inconsistencia de datos por problemas de sincronismo.
Ambas estrategias, asincrónicas o sincrónicas son válidas mientras sean adecuadas entre el balance de costo y tiempo de RTO (Recovery Time Objective), adecuando el tipo de método de replicación elegido, ya sea por SAN, por red o a nivel de servidores o de base de datos, ya que los tiempos de recuperación de datos por medio de las cintas magnéticas son lentos para las necesidades de negocio de muchas empresas.
Los fabricantes de SAN como EMC, IBM, HP, Hitachi o Dell, entre otros ofrecen soluciones de replicación que se ajustan a cualquiera de los dos tipos. También para replicación por red a nivel de sistema operativo o replicación por red con productos que optimizan el tráfico de manera segura y eficiente.

Para decidir cuál va a ser la metodología elegida para el Data Center de contingencia, se deberán analizar los costos por las pérdidas y los costos por la implementación de la solución, además de la variación en horas por cada tipo de solución sobre la base de la complejidad de las aplicaciones que se restaurarán.

viernes, 8 de agosto de 2014

Cálculo del costo de las interrupciones en el Data Center

Una de las funciones básicas de un Data Center bien diseñado es eliminar los riesgos potenciales que causarían pérdidas de gran magnitud, y minimizar el impacto de los eventos no evitables, como las catástrofes naturales. Pero la pregunta es: ¿Sabemos medir económicamente el impacto en la interrupción o degradación de servicios de nuestro Data Center?

Esta es una pregunta que debemos tener en cuenta desde la etapa de diseño hasta el fin de ciclo de vida.

Es altamente recomendable tener una estimación monetaria de cuanto cuesta por hora la indisponibilidad de una aplicación o un servidor en particular, ya que nos puede ayudar a buscar un nuevo diseño de solución cuando sea necesario y la variable económica se torne fundamental a la hora de convencer a los ejecutivos, en caso de que se requiera una inversión adicional para dicha solución.
Existen tres tipos de costos que deben tenerse en consideración:

Costos de Oportunidad: representa a todas aquellas utilidades que se perdieron de ganar por indisponibilidad. No poder vender en ese momento, o aun peor: el cliente se va a la competencia (no solo se pierde la venta, sino el cliente).
Costos Directos: son los que influyen directamente en las finanzas de la empresa, por eso son más fáciles de medir como :

Empleados esperando para poder trabajar o pérdida de transacciones y operaciones.
Tiempo de recuperación de servicio.
Tiempo de testeo post recuperación.
Demandas legales por incumplimiento de obligaciones.

Costos Indirectos: son los costos asociados a posibles situaciones de las cuales no se tiene un gran nivel de certeza, pero se sabe que existen. Por eso son mucho más difíciles de medir, pero impactan en el negocio de la misma manera:

Disminución del grado de satisfacción del cliente.
Pérdida de clientes
Daños a la imagen de la compañía

El cálculo del costo de la interrupción debe incluir las variables negativas que impactan en todos los aspectos anteriormente mencionados, ya sea que se calcula por servidor o por aplicación.

Costo = P * A * E * H

P = Número de personas afectadas
A = Porcentaje medio de cuanto fueron afectados en sus tareas
E = Costo promedio de la hora del personal afectado
H = Cantidad de horas de interrupción.

El valor más difícil de calcular es sin duda el costo promedio por hora de interrupción. Es importante aclarar que no se está considerando el costo potencial de las acciones que derivarían de la interrupción. Por ejemplo: costo por transacción perdida, potencial pérdida de clientes, pérdida de imagen corporativa, demandas legales, etcétera. El daño a la imagen de la marca es la pérdida más difícil de cuantificar económicamente, ya que no existe una fórmula; se pueden hacer estimaciones,
pero siempre con un índice de confiabilidad bajo.

domingo, 25 de mayo de 2014

Libro publicado y sorteo

Me complace anunciar que ha sido publicado el primer libro sobre infraestructura de Data Centers en español y también los invito a participar del sorteo de 2 ejemplares.

Este libro está concebido para todos aquellos que desean abordar por primera vez la comprensión de los elementos que integran un Data Center o están ya familiarizados con el tema, pero desean profundizar y ampliar sus conocimientos previos. Por ese motivo, esta obra es una herramienta práctica tanto para los estudiantes universitarios como para los responsables del planeamiento, diseño, implementación y operación de un Data Center en las empresas.

Los consejos, estrategias y recomendaciones que se encuentran a lo largo del libro son el resultado de una extensa investigación Se inspiran en las nuevas técnicas, los estándares más novedosos y las últimas tendencias a fin de optimizar el funcionamiento actual del Data Center, y brindarle al negocio una mejora competitiva. En ese sentido, se desarrollan una serie de propuestas destinadas a la mejora de las prácticas actuales de la industria así como al diseño de planes de contingencia.

El libro cuenta con el prólogo del Lic. Carlos Tomassino.

Indice - Data Centers Hoy

El libro está editado por Alfaomega ya encuentra disponible para adquirir en formato electrónico (formato ePub). La edición en papel esta llegando a los diversos países.

México: Ya se encuentra disponible en librerías. http://www.alfaomega.com.mx/default/data-centers-hoy-proteccion-y-administracion-de-datos-en-la-empresa-2528.html
Argentina: Disponible en librerías a partir del 06/2014
España: Próximamente disponible. Editado por Marcombo
Resto de América: Disponible en librería.

SORTEO:

El día 24/06/2014 se sortearán 2 ejemplares en formato electrónico ePub. Para participar concurso deberás enviar tus datos personales (nombre, apellido, correo electrónico, país de residencia) a datacentershoy@hotmail.com

Los ganadores serán anunciados el 25/6/2014 en este mismo post.

GANADORES
Felicitamos a los ganadores del sorteo: Yuri Perales de Perú y a Pablo Astrada de Argentina.

Muchas gracias a la gente de Argentina, España, Perú, México, Chile, Ecuador, Guatemala, Costa Rica, Colombia, República Dominicana y Venezuela por haber participado.