Data Centers Hoy

lunes, 17 de octubre de 2022

Diez mandamientos para migrar a la nube y no fracasar

Permanentemente escuchamos a los lideres de las organizaciones que hablan desde un pseudo entendimiento y plantean "porque no llevamos todo nuestro data center a la nube" pero la respuesta es mucho más compleja.

A excepción de las startups del último tiempo, que nacieron como nativas digitales, hacer una buena migración (desde lo técnico y lo eficiente económicamente) es mucho más difícil de lo que muchos creen, ya que requiere un estado de maduración y capacitación de todos los equipos intervinientes que es mas bien un "state of art" que una serie de procesos repetibles automáticamente. Sin duda las bondades de la nube están muy claras, agilidad de disponibilidad de recursos, flexibilidad, costos iniciales bajos, etc. la idea de este artículo es exponer en un lenguaje claro y coloquial algunas dificultades que pueden venir en forma de sorpresa si no son tratadas debidamente.

En base a muchísimas investigaciones, lectura de papers, libros, documentos, etc y sobre todo experiencia propia y el intercambio con otros colegas les dejo un decálogo con los diez mandamientos para migración a la nube inteligente y sustentable Esto es independiente del hyperscalers que elijas, pero en especial me centré en los mas importantes, que son: AWS, AZURE, GCP, y algunos otros proveedores de nube menos relevantes que andan por ahí.

LA NUBE NO ES PARA TODO: Si tenes tu data center propio seguramente hay cosas que hacen sentido no migrar, ya sea por latencia, confidencialidad, costos, eficiencia de los enlaces que tenes contratados, porque son aplicaciones "legacy" etc. Lo primero que necesitas un buen assesment y una buena planificación. Clasificá, ordená, priorizá, detecta donde tenes los quick-wins (ej sacarse migrar un server que no tiene soporte de hardware, etc) y seguir migrando paso a paso. Cada migración tiene que tener un sentido y un porqué. Una frase que me gusta para representar este enfoque equivocado es: "Cuando la única herramienta que conoces es el martillo, todos tus problemas se parecen a un clavo".
NO PODES OPERAR EN LA NUBE TAL CUAL COMO OPERABAS ANTES: cada cosa que haces en la nube se paga, todo, absolutamente todo. Seguramente nunca te pusiste a calcular cuantos GB de transferencia tenia una placa de red de un server X, pero por más que salga 0,00001 USD por cada GB hay que pensar que todo tiene un costo, eso antes ni lo tenias medido. Hay que mirarlo con lupa. Los hypersacaler tienen herramientas que ayudan, pero hay que ponerlo en la rutina de tareas, a veces las calculadoras pueden ser complejas de utilizar. También vas a tener que replantearte el ancho de banda de tus enlaces. Les recomiendo el AWS Cloud Adoption Framework (ESP) Es el muy completo y te cuenta como hacer un buen camino a la nube. Conozco muchos casos de empresas que vuelve de la nube al on-premise por no planificar adecuadamente y encontrarse con facturas sorprendentes a fin de mes.
SE NECESITAN NUEVOS SKILLS EN EL EQUIPO: Gestionar la nube es complejo, si venias de un entorno simple, ahora vas a tener mucha mas granularidad que administrar, permisos entre redes, permisos de usuarios, grupos, auditorias, controles de costos, servers, etc, etc. Es mas complejo. necesitas adquirir nuevas capacidades, no es rocket science, pero si no te capacitas, la vas a pasar mal. Se necesita perfeccionar los skills de seguridad de todos los equipos de IT.
LA NUBE NO ES PERFECTA: Si bien los proveedores ofrecen excelentes capacidades de disponibilidad, si queres una aplicación REALMENTE alta disponibilidad ES TU responsabilidad en el diseño de la arquitectura de la solución para que realmente sea alta disponibilidad, ya que no todos los recursos son redundantes por default en la nube, entonces debes agregar recursos en distintas zonas y el diseño de la arquitectura debe estar acorde.
LA MAGIA ESTA EN LOS MICROSERVICIOS: la nube comienza a ser eficiente cuando haces uso de las tecnologías mas avanzadas, mientras tanto es caro. Tenes opciones de "apagar el server cuando no lo usas" pero una vez mas vuelve el concepto de operar la nube a "conciencia de costos". Tener encendido un server 24x7 en la nube igual que en tu data center funciona, pero no es eficiente. Seguramente vas a tener que rehacer aplicaciones.
APROVECHÁ LA TECNOLOGÍA DISPONIBLE: no reinventes la rueda, siempre pensá en utilizar las herramientas que ya tenes en la nube, son agiles y fáciles de implementar (también agiles de adquirir, comparado con un proceso administrativo de cualquier organización standard). Revisá en las herramientas existen en la nube, probablemente ya haya disponibles soluciones pueden ser fáciles y rápidas de implementar para tu negocio. Mantenete actualizado con los servicios que van saliendo, porque permanentemente se publican nuevas herramientas.
RESERVAR LOS RECURSOS MINIMOS: en el viejo mundo cuando nos pedían un server antes pensábamos en xx CPU, xx GB de RAM, xx TB de disco, proyectando en crecimiento a xx años, etc. Acá tenés que pensarlo exactamente al revés, reservá la instancia mínima y después vas creciendo a demanda, y después preparate para pelearte con los app owner que te van a venir con el manual de instalación de su producto para hacerlos entender que tienen que salir de su standard y pensar en un modelo que sea escalable, seguramente vaya a tener que hacer que su app escale a demanda requerirá un desarrollo por parte de ellos, pero es la única forma que la nube sea productiva.
NO EXISTE UNA NUBE PERFECTA PARA TODOS LOS USOS: Para las empresas grandes el futuro es hibrido y multinube. Hibrido porque hay cosas que nunca saldrán del on-prem (excepto que te decidas por AWS Outpost o Azure HCI) y multinube porque cada una tiene sus virtudes donde se destaca sobre el resto. En relación a los costos no se sacan mayores diferencias ya que en líneas generales están muy parejos, pero si hay algunas salvedades tecnológicas que vale la pena remarcar por características distintivas de cada una:

AWS: se destaca por la su solvencia en innovación tecnológica de vanguardia, granularidad para elegir alternativas mas eficientes en costos y disponibilidad de talentos en el mercado con conocimientos de la plataforma.
Azure: ventaja competitiva en licenciamiento, que se traduce en eficiencia de costo y el apalancamiento que le da los clientes corporativos que ya están usando la suite de Office 365 y en especial Azure AD.
GCP: Integraciones y herramientas de desarrollo/web. Big Data, analítica, Machine learning y la baja latencia de sus servicios basados en kubernetes.

LOS DATOS EN LA NUBE SON TU RESPONSABLIDAD: Todos los hyperscalers tienen modelo de responsabilidad compartida, despendiendo del tipo de servicio que consumas varían los grados de responsabilidad, pero siempre el responsable de los datos sos VOS! No te relajes. Revisá permanentemente la integración de tu estrategia de backups en la nube.
LOS ERRORES CUESTAN PLATA (Y MUCHA) En un entorno tradicional, un desarrollador o un proveedor se equivocaba, dejaban un proceso corriendo mal, una base de datos ejecutando una consulta ineficiente, con una recursividad que causara un loop o algo similar (incluso en un ambiente de test) un viernes a la noche y a lo sumo el lunes a la mañana tenias el server colgado, lo reiniciabas y listo. Acá el tema es distinto, acá pagas y mucho, una query mal programada en test puede terminar en una facturación de miles de dólares (lo he visto). Viene la factura y a pagarla. Muchas empresas fueron a la nube sin una buena estrategia y "terminaron volviendo al onpremise" para correr algunas de sus cargas, con la gran dificultad que eso representa. Si bien es cierto que tener herramientas de analisis de costos, alertas, forcasting, etc, etc, lo malo es que muchas veces son post-mortem, el gasto ya se realizó. Lamentablemente aún no implementaron el concept de "quotas" sobre recursos. También comparto el link de FinOps, una ONG creada por The Linux Foundation con el fin crear conciencia en el uso eficiente de las tecnologías nube.

CAPACITARSE, CAPACITARSE, CAPACITARSE y SEGUIR CAPACITANDOSE. Los viejos SysAdmin deberán convertirse en los próximos DevOps. Para eso aprender a programar es una obligación.

BONUS TRACK: te dejo una comparativa de los nombre de los productos equivalentes en cada uno de los principales hyperscalers, como ya lo dije el futuro es multinube y tenemos muchos nombres que aprendernos, si si, son un montón de productos, aquí solo los mas importantes --> muy buena cuenta para seguir @simonholdorf

lunes, 8 de mayo de 2017

Continuidad del negocio en el Data Center

Al desarrollar un plan de recuperación, el objetivo es regresar la operación del negocio al nivel en que estaba el día antes de la catástrofe. Si su negocio es tomar pedidos por medio de una línea telefónica y continuar con la entrega de productos, el esfuerzo de recuperación debería estar dirigido hacia el restablecimiento de la operación telefónica y la conexión del personal a los sistemas de procesamiento informático y telefónico, lo cual permitirá que continúen los envíos.
El plan final podrá incluir una instalación redundante en otro sitio remoto que tenga acceso a los datos obtenidos de las copias de seguridad. Si la operación no es tan crítica o la instalación redundante no ha sido considerada por razones presupuestarias, es imprescindible un buen plan de recuperación.
Cada hora perdida decidiendo sobre un enfoque o experimentando con diferentes técnicas es una hora de interrupción al negocio que genera pérdidas.
Las empresas deberán desarrollar un plan integral, de forma artesanal para así enfrentar las consecuencias el día del desastre, ya que no existe una solución única, sino que es propia de cada empresa, diseñada a medida.

Un BCP no es un plan del área de IT solamente, sino que involucra a toda la empresa por completo desde la restauración de servidores hasta las tareas operativas, ejecutivas y directivas.

En el plan interactúan las personas de la organización con la tecnología, los procesos y la infraestructura.
Ciclo de vida del Plan de Continuidad del Negocio:

Análisis y planificación: cuando se inicia el proyecto se debe tener en consideración todo el negocio por completo, haciendo un estudio de necesidades y evaluando la situación actual. Luego, se debe hacer un minucioso análisis de riesgos del impacto al negocio (BIA, Business Impact Analysis), análisis de pérdidas, cuantificación de consecuencias, etcétera e identificar las aplicaciones críticas, que forman el núcleo operativo: inventarios de aplicaciones y servidores, diagramas de red e infraestructura. Adicionalmente, hay que identificar los posibles escenarios y análisis de amenazas. En esta etapa, se definirán bajo qué condiciones se activarán los procesos de contingencia y cómo será el camino que se tome para volver a la situación de operación normal.
Diseño de solución: se buscará la manera en que se pueda llevar a cabo el plan de contingencia de manera integral desarrollando una estrategia de mitigación. Debe ser comunicado correctamente a todas las áreas, preferentemente siguiendo los estándares. Además se procederá con la elaboración de una lista de prioridades con un orden específico y se confeccionará un checklist para los equipos con identificación de contactos internos y proveedores clave. Se definirán los equipos y los procesos de recuperación así como la selección de la estrategia de backup y los objetivos de los tiempos de recuperación (RTO). Asimismo se establecerá el tiempo máximo de interrupción tolerable (MTPOD), el punto de recuperación objetivo (RPO), la forma de interactuar y los roles clave.

RPO: refleja el punto tolerable de restauración de los datos. Por ejemplo, se define si es aceptable contar con los datos de las 00:00 h del día en que ocurre el desastre, o si se prefiere las 00:00 h del último domingo de la semana en que ocurrió el desastre. Obviamente esto está relacionado con la solución de backup elegida, que será detallada más adelante en este capítulo.
RTO: es el tiempo en que se desean tener los datos recuperados y disponibles. Por ejemplo, en cinco horas, diez horas, etcétera.
MTPOD: es el tiempo aceptable de recuperación total. Luego de haber alcanzado el RTO, queda pendiente restaurar las operaciones al punto normal. Esto puede requerir configuraciones adicionales que agregan más tiempo a la restauración del servicio.

Implementación: es el desarrollo del plan, incluye la puesta en marcha de un ejercicio de simulación, que quizás para empresas chicas o medianas pueda ser inviable por razones presupuestarias, pero que son realmente importantes, como los ejercicios de evacuación de incendios en los edificios, entrenamiento, documentación y capacitación. Es recomendable que todas las tareas sean coordinadas por un Comité de Crisis que debe estar previamente designado y conformado por personas que conozcan bien el negocio, tengan poder y capacidad para tomar decisiones. Lo importante se debe anteponer a lo urgente, ya que una mala decisión puede ser contraproducente.
Testeo y aceptación: en el momento de ejecución del ejercicio de simulación o cuando se activa el BCP, realmente, la comunicación entre todas las partes tiene un rol fundamental para alcanzar el éxito. Se deberá hacer la verificación, corroborar los pasos correctos, determinar desvíos, identificar puntos débiles, análisis de costos y luego tomar medidas correctivas, llamadas lecciones aprendidas (lesson learned). Ellas realimentarán el proceso de diseño de la solución a fin de introducir mejoras.Es recomendado hacer una prueba completa de todo el BCP al menos una vez al año, aunque pueden hacerse pruebas parciales con menor frecuencia para probar nuevas tecnologías o soluciones parciales para ciertos eventos.
Mantenimiento: se debe comunicar y mantener actualizado el plan aprobado, asegurando que el personal esté debidamente entrenado. Hay que mantener un monitoreo continuo para el establecimiento de políticas estratégicas, además de identificar nuevas tecnologías o cambios operativos, legales, regulatorios directivos que permitan mejorar el diseño de la solución.

Se recomienda tener un repositorio de versiones y además un documento de control de cambios entre las distintas versiones para ver de manera simple cuales fueron las mejoras introducidas.
Sin duda estas planificaciones requieren dedicación de recursos, tiempo, recolección de información, infraestructura, etcétera, que en definitiva es dinero, pero si la catástrofe ocurre las consecuencias económicas serían mucho peores.

RTO: Recovery Time Objective. Se mide en horas.
MTPOD: Maximum Tolerable Period of Distruption. Se mide en horas
RPO:Recovery Point Objective es el objetivo deseado de recuperación.

martes, 26 de enero de 2016

Hollywood ya sabe la importancia del Data Center

Una de las funciones básicas de un Data Center bien diseñado es eliminar los riesgos potenciales que causarían pérdidas evitables, y minimizar el impacto de las no evitables como las catástrofes naturales. Las empresas que sufren situaciones de desastre en sus sistemas, quedan con un daño irreversible que puede llevar a la compañía a su cierre parcial o, en algunos casos, definitivo.

Los guionistas de cine y televisión ya son consientes que para eliminar completamente a "los malos", no solo basta con deshacerse de los personajes, sino que también deben destruir su Data Center.

Una investigación de la Universidad de Texas revela que de las empresas que sufren una pérdida masiva en sus sistemas de información, el 43% nunca vuelve a abrir, el 51% cierra antes de los dos años, y solo el 6% puede continuar con su actividad, enfrentando grandes pérdidas en sus sistemas de información.
Según otro informe de la Agencia Nacional de Archivos y Registros en Washington D.C. (National Archives and Records Administration), el 93% de los negocios que tienen una interrupción importante en sus Data Center por más de 10 días, quedan en bancarrota en menos de un año.
La contundencia de estos números deja a la vista cuán importante son los datos de las empresas para poder permanecer con las puertas abiertas.

Tratando de no spoilear películas, a continuación les dejo algunos casos donde para que "los buenos" derroten a "los malos" y tengamos un final feliz con nuestras panzas llenas de pochoclo (también llamadas palomitas), el protagonista debe destruir el Data Center enemigo para poder derrotarlo definitivamente.

Terminator 2 (1991): Terminator personificado por Arnold Schwarzenegger junto con Sarah y John Connor logran convencer al científico Miles Dyson que deben volar el laboratorio de investigación de Cyberdyne Systems, junto con toda la información existente con fin de destruir por completo a Skynet (los malos). Pese a que todo termina con una gran explosión, cuando los planes salen perfectos, los guionistas aprovechar a dejar puertas abiertas para futuras zagas.
Prision Break - Temp 4 (2009): Los hermanos Michael Scofield y Lincoln Burrow, luego de tres temporadas deciden que deben destruir a "Scylla" un repositorio de información ultrasecreto ultraprotegido que guarda los mayores pecados de los malos.
Ant-Man (2015): Dr. Hank Pym quiere evitar que una tecnología de avanzada que el mismo descubrió, caiga en las manos equivocadas debido a su gran potencial (en este caso Darren Cross). Para ello se propone destruir el Data Center de Pym Technologies (el laboratorio que el mismo creo) así como también todos los datos almacenados en los backups.

Los invito a dejar comentarios en este post de otras películas donde las destrucción del Data Center sea sinónimo de acabar con los malos.

jueves, 19 de noviembre de 2015

Optimización del Flujo de Aire Frío

Cuando estamos en casa, pasando una cruda noche de invierno y tenemos frío, subimos la temperatura de la calefacción, y si seguimos con frío, encendemos otro otra estufa más..... y así seguimos, pero nos ponemos a pensar porque ? Analizamos por donde está entrando el frío? Quizás poniendo un burlete en el marco de la ventana o colocar una ventana doble resuelve el problema sin tener que consumir mas calorías para aclimatar.

Lo mismo ocurre en los Data Centers. No siempre que se detectan problemas de temperaturas la solución es bajar la temperatura del CRAC. El problema también puede ser la presión de aire. Por lo tanto aumentar o reducir la velocidad de circulación del aire frío puede ser la solución óptima. En los diseños donde el aire frío ingresa por debajo del piso técnico, el pasillo frío debe estar libre de obstrucciones, permitiendo una circulación libre. Es por ello que los cables de alimentación y comunicaciones deberán pasar por debajo del pasillo caliente.

Para asegurar la correcta refrigeración de los equipos, una de las claves está en descargar la cantidad justa de aire frío, dirigida hacia la fuente de calor, mediante rejillas en el piso técnico o por ventilación superior.
En el caso del piso técnico, se produce un cambio de presión dentro del piso falso, comparado con la presión externa. En función de este diferencial, aumenta o disminuye la velocidad de giro de los ventiladores EC de los climatizadores. En caso de tener un solo un pasillo frío encapsulado, se mide el diferencial de presión del interior del pasillo con la sala, usando esta señal para regular la velocidad de giro de los ventiladores.
En el piso del pasillo encapsulado están los elementos de control de caudal de aire frío, en función de la temperatura dentro de los Rack. La presión en el interior del pasillo encapsulado no debe superar un valor máximo para no exigir a los ventiladores en el interior de los servidores. En caso de tener múltiples pasillos encapsulados, se instala una regulación por pasillo y una de presión general del
piso falso. Al reducir el caudal de aire a la mitad, el consumo eléctrico es mucho menor. A mayor velocidad de circulación del aire, menor presión estática en las placas perforadas más cercanas a la unidad CRAC. Dicho control asegura que el aire sea el justo y necesario, permitiendo un ahorro significativo en el consumo eléctrico de los ventiladores. A continuación, se pueden ver las diferencias que existen entre un flujo correcto de aire y otros incorrectos.

El control de presión en pasillo frío encapsulado asegura que el aire fluya correctamente y se mantenga separado el frío del caliente, asegurando que el aire caliente reingrese a la unidad de enfriamiento sin pérdidas. De ser posible es recomendado mover la refrigeración más cerca de la carga, lo que permitirá ahorrar en potencia total de ventilación y proporcionará un tiempo de reacción más rápido si varían las cargas de los equipos en los Racks.

La eliminación del aire caliente puede estar provista por canalizaciones especiales ubicadas en el techo, que pueden ser selladas o no, ya que el aire caliente siempre tiende a subir a fin de permitir la expulsión de ese aire caliente hacia el exterior o para volver a introducirlo en la unidad CRAC. Si la temperatura de salida del aire caliente aumenta al reingresar a la unidad CRAC, el esfuerzo para
enfriarlo será mayor, y viceversa. Por otro lado, existe un problema frecuente en los Data Centers, ya que muchas veces se mueven equipos de un Rack a otro, dejando espacios libres y no se toman medidas para evitar la recirculación de aire caliente hacia el frente del Rack.
Instalado paneles ciegos (o también llamados de obturación) se impide que el aire caliente recircule hacia la parte delantera del Rack donde se encuentra la toma de aire frío para los equipos, haciendo un buen aprovechamiento de la capacidad de refrigeración

La clave es encontrar un equilibrio justo para tener la humedad en un rango óptimo. Los paneles ciegos en los Racks ayudan a disminuir la circulación del aire, manteniendo los pasillos fríos y calientes separados.

sábado, 11 de julio de 2015

Diseño de pasillos y más.....

Han pasado más de 22 años desde que el Dr Robert Sullivan creó por primera vez el diseño de pasillo frío/pasillo caliente mientras trabajaba en como investigador para los laboratorios de IBM.
Años después formalizaría ese diseño para luego convertirlo prácticamente en un standard indiscutible al día de la fecha. En su trabajo "Alternating cold and hot aisles provides more reliable cooling for server farms" publicado en 2002 se explican como ubicar y orientar los racks en el Data Center para optimizar el uso de los sistemas de enfriamiento.

El diseño y la ubicación de los Racks dentro del área del Data Center es vital para lograr una optimización de eficiencia en la refrigeración.
Los Racks deben estar todos alineados formando pasillos opuestos unos con otros, enfrentando la parte delantera de una fila con la parte delantera de la otra. De esa forma, quedan diseñados pasillos intercalados: uno frío y uno caliente, alternadamente. El pasillo por donde sale el aire caliente de los Racks deberá estar en forma opuesta a la siguiente fila. Los equipos toman el aire frío por la parte frontal y expulsan el aire caliente por la parte trasera.

En el gráfico, se muestra la disposición de los pasillos. El pasillo frío se encuentra refrigerado por el aire que ingresa por el frente de los Racks a través de las rejillas de ventilación (que pueden venir por debajo del piso técnico y de alimentación superior), y luego el aire caliente es expulsado por la parte trasera de los Racks, para reingresar a las unidades de enfriamiento, también conocidas como CRAC (Computer Room Air Conditioning).

En estos dispositivos, monitorean y mantienen controlada tanto la temperatura como la humedad dentro del Data Center. Poseen una entrada por donde ingresa el aire caliente y una salida por donde expulsa el aire frío. Las unidades de enfriamiento deben estar coordinadas entre sí de forma tal que funcionen de modo sincronizado, haciendo un esfuerzo cooperativo, y donde la distribución de la carga es equitativa, maximizando así la vida útil de los componentes y balanceando la energía consumida.

Si estamos armado un Data Center desde cero, la mejor estrategia de optimización de espacio es inversa a la lógica convencional de diseñar primero las paredes, las columnas y puertas en un espacio vacío que luego será amoblado con cientos de equipos computacionales. Es decir, lo que se debería hacer en primer lugar, es diseñar la disposición de los Racks, ubicación de pasillos (fríos y calientes), equipos de refrigeración, etcétera. Una vez dispuesto el diseño de la distribución de todos los elementos, es el momento de colocar las paredes, puertas y columnas en el plano. De esta forma, se logrará un máximo aprovechamiento del espacio físico, evitando así espacios muertos inutilizables.

Para tener un mejor rendimiento en los equipos de aire acondicionado, hay que disminuir el consumo eléctrico y mantener la temperatura controlada. Se recomienda hacer una aislación completa entre los pasillos, ya sea al comienzo o al final de los Racks, colocando puertas para poder acceder al pasillo aislado. Dicha separación de pasillos impide que el aire se mezcle, mejorando la temperatura y disminuyendo el consumo.

Sobre la base de las recomendaciones de la norma TIA/EIA-942, los pasillos fríos deben tener 1,20 m de ancho (hasta 0,9 es aceptado), y deberán tener una temperatura no mayor a los 25°C. Por otra parte, los pasillos calientes deben tener 0,9 m de ancho (hasta 0,6 es aceptado), funcionando a una temperatura que puede oscilar entre 36°C y 47°C, dependiendo de la carga y el uso de los Racks en ese pasillo.

En próximos artículos hablaremos de la importancia de la circulación del flujo del aire entrante y saliente.

lunes, 23 de febrero de 2015

El incremento en la densidad de los Data Centers

Uno de los mayores desafíos que enfrentan los responsables de los Data Centers es el aumento de la densidad de consumo kW por rack, ya que por un lado requieren se mayor suministro eléctrico y al mismo tiempo se genera más calor en la misma superficie, debido a las tendencias de optimización que evolucionan permanentemente.
El motor impulsor principal de esos cambios es el avance tecnológico de los componentes de los servidores (en especial procesadores y memorias). Hoy en día existen dispositivos con mayores prestaciones, que funcionan en espacio mas reducido, pero que generan más calor en comparación con el espacio que ocupaban los mismos equipos un tiempo atrás.
Otro actor importante que tomó un rol protagónico hace ya unos años es la virtualización, que permite aprovechar los recursos ociosos.

Para poner un ejemplo, para realizar tareas de procesamiento centralizado 2005 un Data Center tradicional con 315 servidores de 2U cada uno requería unos 15 racks en promedio y podría tener un consumo promedio total de 4 kW por rack. Actualmente esa misma capacidad de cálculo puede ser reemplaza por 21 servidores que ocupan un solo rack, pero que tiene un consumo de 11 kW por rack

A medida que pasan los años, se produce una reducción de la superficie ocupada dentro del Data Center, eso hace que también aumente la densidad de cables por cada rack, y la capacidad de enfriamiento debe ser superior, ya que la densidad del calor generado tiene más concentración.
Si bien el costo de la inversión inicial del nuevo equipamiento puede ser elevado, se deben evaluar cuáles son los costos totales asociados al su funcionamiento a lo largo de la vida útil, ya que las capacidades de los procesadores aumentan permanentemente. La clave es encontrar el punto de equilibrio entre la inversión, la vida útil proyecta, el TCO y la disponibilidad deseada, para renovar los equipos periódicamente, y así producir ahorros a mediano o largo plazo

Uno de los primeros pasos que se debe seguir cuando se releva información sobre el Data Center ya existente o próximo a construir, es la definición del consumo de kW/rack actual, y el estimado para los próximos años. De esa forma, se determinará la densidad de calor generado por rack medido en kW, lo cual no es una tarea sencilla ya que no todos los rack tiene el mismo consumo, por ejemplo los equipos te comunicaciones, red, telefonía generan muy poco calor. Por el contrario, los servidores, que tienen muchos procesadores en un espacio reducido generarán más calor. Por eso, hay que identificar los distintos consumos por rack.

Luego de tener una clara definición de cuánto calor genera cada rack, hay que establecer la estrategia de refrigeración. En particular, al momento de la ubicación, conviene definir diferentes tipos de zonas o identificar posibles riesgos. Una vez efectuado esto, también es necesario saber la densidad de calor generado kW/m² y la densidad promedio kW sobre la superficie total del Data Center. Esa información nos ayudará a definir la estrategia de refrigeración que elegiremos.

En los Data Centers actuales es común encontrar racks que tiene un consumo de 20 kW o más. Esta es una tendencia en aumento a partir del año 2004 con la aparición de servidores de 1U y los servidores Blade

Clasificación según el consumo promedio por Rack:

Densidad baja (tradicional): 1 a 3 kW
Densidad moderada (promedio actual): 3 a 8 kW (hasta 2 servidores Blade)
Densidad media (tendencia): 9 a 14 kW (hasta 3 servidores Blade)
Densidad alta: 15 a 20 kW (hasta 4 servidores Blade)
Densidad extrema: más de 20 kW

Si bien la virtualización simplifica la tarea de los administradores de los servidores, y permite agilizar el área de IT con menores costos, para los responsables de la infraestructura de los Data Centers es un arma de doble filo, ya que para aprovechar la solución mencionada de forma ideal, se deberá reemplazar el hardware existente, comprando equipos más potentes y pequeños, que también generan más calor en una superficie menor. Además, éstos pueden requerir actualización en la infraestructura de red ya que en estas soluciones requieren redes de alta velocidad y grandes capacidades de almacenamiento para aprovechar todas las ventajas que ofrecen los productos.

Con el aumento de la concentración de la cantidad de cables que entran y salen a cada rack, es fundamental tenerlos prolijamente ordenados para que el flujo de aire no se vea obstruido y se dificulte el correcto flujo de circulación de aire frío y aire caliente.

martes, 7 de octubre de 2014

Recuperación de Desastres en el Data Center

Desarrollar un plan de recuperación tiene como objetivo regresar a la operativa del negocio al mismo nivel en el que estaba antes de la catástrofe. Si su negocio es tomar pedidos por medio de una línea telefónica y continuar con la entrega de productos, el esfuerzo de recuperación debería estar dirigido hacia el restablecimiento de la operación telefónica y la conexión del personal a los sistemas de procesamiento informático y telefónico, lo cual permitirá que continúen los envíos.
El plan final podrá incluir una instalación redundante en otro sitio remoto que tenga acceso a los datos obtenidos de las copias de seguridad. Si la operación no es tan crítica o la instalación redundante no ha sido considerada por razones presupuestarias, es imprescindible un buen plan de recuperación.

Un Data Center de respaldo consiste en un sitio de contingencia que reemplazará al de producción solo con las aplicaciones definidas como críticas para el BCP (Business Continuity Plan). A continuación se describen las características de los cuatro tipos de Data Centers que se pueden utilizar para el diseño de un plan de recuperación de desastres:

Data Center de contingencia estándar: Consiste en disponer de un espacio físico vacío con la capacidad de contener y soportar las aplicaciones pertenecientes al grupo de DR; preparado con la estructura eléctrica y de refrigeración mínima para cubrir la contingencia de esos equipos. Se debe considerar con la posibilidad de que los equipos se demoren en conseguir en la zona, por ejemplo, Firewalls (cortafuegos) o algún reemplazo similar. Este método tiene un costo bajo, salvo por el desaprovechamiento del espacio, pero los tiempos de restauración son muy lentos (de días a semanas), ya que se debe conseguir el equipamiento, armar la infraestructura, luego instalar las aplicaciones; y finalmente, restaurar los datos de las cintas.
Data Center en la nube: Utiliza los servicios ofrecidos por los proveedores basados en Internet o a través de un enlace punto a punto por medio de un proveedor que ofrezca una conexión privada. Los costos son menores y la velocidad de instalación de los nuevos servidores es muy rápida, están basados en máquinas virtuales, pero lo que demandará más tiempo será la restauración de los datos, porque las cintas de contingencia deben ser enviadas hacia el proveedor, también habrá que restaurar las aplicaciones; y luego, restaurar los datos.
Data Center asincrónico (mirror off-line): Consiste en tener otro Data Center duplicado en una ubicación remota en donde se replican todos los servidores críticos de manera asincrónica. Esto puede realizarse en un sitio privado o contratado por a algún proveedor, pero con la salvedad de que los datos de esas aplicaciones críticas se copian al Data Center de contingencia de manera automática fuera del horario de operatoria diaria; por ejemplo, por las noches, mediante diversas herramientas. Tiene un costo alto, ya que todos los servidores están disponibles, pero sólo se utiliza la red dedicada para la transferencia de datos al Data Center de respaldo cuando no afecta las operaciones en horario central; por lo cual, en caso de desastre, el tiempo de recuperación es menor a un día. Generalmente este servicio es empleado por empresas que procesan sus operaciones más importantes en servidores Mainframe, del rubro bancario, por ejemplo, ya que en caso de desastre no pueden quedarse sin operar, y tener un Mainframe de respaldo resulta impráctico debido a su altísimo costo, pudiendo costar varios millones de dólares solo un Mainframe.
Data Center sincrónico (mirror on- line): Llamado espejado o (mirroring), es una estrategia donde en el Data Center de respaldo propio o rentado a algún proveedor replica todos los datos de la aplicaciones críticas, tomándolos desde el Data Center de producción, de modo constante en tiempo real, copiando bloque a bloque; de manera tal, que si ocurre un desastre, la recuperación es instantánea, pudiendo tomar tan solo algunos minutos. Es la estrategia más rápida y costosa, ya que requiere tener todos los servidores duplicados y exige tener un gran ancho de banda disponible solo para la copia de los datos en tiempo real. Por lo que los costos en infraestructura de red son altos, además del mantenimiento e la implementación del software encargado de hacer que esa replicación funcione: Softek de IBM, Stream de Oracle, u otras soluciones provistas por los fabricantes de la SAN. Está claro que este tipo de soluciones están reservadas para empresas grandes que manejan presupuestos de infraestructura millonarios y no pueden sufrir interrupciones en la operatoria de sus servicios debido a sus altísimos costos.

Importante: Si se elige una estrategia sincrónica es fundamental que dicho proceso sea monitoreado constantemente a fin de corregir los desvíos, ya que de nada sirve una inversión tan grande para luego tener problemas de inconsistencia de datos por problemas de sincronismo.
Ambas estrategias, asincrónicas o sincrónicas son válidas mientras sean adecuadas entre el balance de costo y tiempo de RTO (Recovery Time Objective), adecuando el tipo de método de replicación elegido, ya sea por SAN, por red o a nivel de servidores o de base de datos, ya que los tiempos de recuperación de datos por medio de las cintas magnéticas son lentos para las necesidades de negocio de muchas empresas.
Los fabricantes de SAN como EMC, IBM, HP, Hitachi o Dell, entre otros ofrecen soluciones de replicación que se ajustan a cualquiera de los dos tipos. También para replicación por red a nivel de sistema operativo o replicación por red con productos que optimizan el tráfico de manera segura y eficiente.

Para decidir cuál va a ser la metodología elegida para el Data Center de contingencia, se deberán analizar los costos por las pérdidas y los costos por la implementación de la solución, además de la variación en horas por cada tipo de solución sobre la base de la complejidad de las aplicaciones que se restaurarán.

viernes, 8 de agosto de 2014

Cálculo del costo de las interrupciones en el Data Center

Una de las funciones básicas de un Data Center bien diseñado es eliminar los riesgos potenciales que causarían pérdidas de gran magnitud, y minimizar el impacto de los eventos no evitables, como las catástrofes naturales. Pero la pregunta es: ¿Sabemos medir económicamente el impacto en la interrupción o degradación de servicios de nuestro Data Center?

Esta es una pregunta que debemos tener en cuenta desde la etapa de diseño hasta el fin de ciclo de vida.

Es altamente recomendable tener una estimación monetaria de cuanto cuesta por hora la indisponibilidad de una aplicación o un servidor en particular, ya que nos puede ayudar a buscar un nuevo diseño de solución cuando sea necesario y la variable económica se torne fundamental a la hora de convencer a los ejecutivos, en caso de que se requiera una inversión adicional para dicha solución.
Existen tres tipos de costos que deben tenerse en consideración:

Costos de Oportunidad: representa a todas aquellas utilidades que se perdieron de ganar por indisponibilidad. No poder vender en ese momento, o aun peor: el cliente se va a la competencia (no solo se pierde la venta, sino el cliente).
Costos Directos: son los que influyen directamente en las finanzas de la empresa, por eso son más fáciles de medir como :

Empleados esperando para poder trabajar o pérdida de transacciones y operaciones.
Tiempo de recuperación de servicio.
Tiempo de testeo post recuperación.
Demandas legales por incumplimiento de obligaciones.

Costos Indirectos: son los costos asociados a posibles situaciones de las cuales no se tiene un gran nivel de certeza, pero se sabe que existen. Por eso son mucho más difíciles de medir, pero impactan en el negocio de la misma manera:

Disminución del grado de satisfacción del cliente.
Pérdida de clientes
Daños a la imagen de la compañía

El cálculo del costo de la interrupción debe incluir las variables negativas que impactan en todos los aspectos anteriormente mencionados, ya sea que se calcula por servidor o por aplicación.

Costo = P * A * E * H

P = Número de personas afectadas
A = Porcentaje medio de cuanto fueron afectados en sus tareas
E = Costo promedio de la hora del personal afectado
H = Cantidad de horas de interrupción.

El valor más difícil de calcular es sin duda el costo promedio por hora de interrupción. Es importante aclarar que no se está considerando el costo potencial de las acciones que derivarían de la interrupción. Por ejemplo: costo por transacción perdida, potencial pérdida de clientes, pérdida de imagen corporativa, demandas legales, etcétera. El daño a la imagen de la marca es la pérdida más difícil de cuantificar económicamente, ya que no existe una fórmula; se pueden hacer estimaciones,
pero siempre con un índice de confiabilidad bajo.

domingo, 25 de mayo de 2014

Libro publicado y sorteo

Me complace anunciar que ha sido publicado el primer libro sobre infraestructura de Data Centers en español y también los invito a participar del sorteo de 2 ejemplares.

Este libro está concebido para todos aquellos que desean abordar por primera vez la comprensión de los elementos que integran un Data Center o están ya familiarizados con el tema, pero desean profundizar y ampliar sus conocimientos previos. Por ese motivo, esta obra es una herramienta práctica tanto para los estudiantes universitarios como para los responsables del planeamiento, diseño, implementación y operación de un Data Center en las empresas.

Los consejos, estrategias y recomendaciones que se encuentran a lo largo del libro son el resultado de una extensa investigación Se inspiran en las nuevas técnicas, los estándares más novedosos y las últimas tendencias a fin de optimizar el funcionamiento actual del Data Center, y brindarle al negocio una mejora competitiva. En ese sentido, se desarrollan una serie de propuestas destinadas a la mejora de las prácticas actuales de la industria así como al diseño de planes de contingencia.

El libro cuenta con el prólogo del Lic. Carlos Tomassino.

Indice - Data Centers Hoy

El libro está editado por Alfaomega ya encuentra disponible para adquirir en formato electrónico (formato ePub). La edición en papel esta llegando a los diversos países.

México: Ya se encuentra disponible en librerías. http://www.alfaomega.com.mx/default/data-centers-hoy-proteccion-y-administracion-de-datos-en-la-empresa-2528.html
Argentina: Disponible en librerías a partir del 06/2014
España: Próximamente disponible. Editado por Marcombo
Resto de América: Disponible en librería.

SORTEO:

El día 24/06/2014 se sortearán 2 ejemplares en formato electrónico ePub. Para participar concurso deberás enviar tus datos personales (nombre, apellido, correo electrónico, país de residencia) a datacentershoy@hotmail.com

Los ganadores serán anunciados el 25/6/2014 en este mismo post.

GANADORES
Felicitamos a los ganadores del sorteo: Yuri Perales de Perú y a Pablo Astrada de Argentina.

Muchas gracias a la gente de Argentina, España, Perú, México, Chile, Ecuador, Guatemala, Costa Rica, Colombia, República Dominicana y Venezuela por haber participado.

sábado, 22 de marzo de 2014

Cúal es la Humedad Correcta de un Data Center?

La humedad es la amenaza menos visible a los equipos dentro de un Data Center. Incluso hasta algunas personas llegan a omitirla dentro de sus consideraciones al momento de monitorear.

La humedad ambiental es la cantidad de vapor de agua presente en el aire. Se puede expresar de dos formas: mediante la humedad absoluta, y de forma relativa o grado de humedad (también conocido por las siglas HR). La humedad relativa es la relación porcentual entre la cantidad de vapor de agua real que contiene el aire y la que necesitaría contener para saturarse a la misma temperatura. Por ejemplo, una humedad relativa del 60% quiere decir que de la totalidad de vapor de agua (el 100%) que podría contener el aire a esta temperatura, solo tiene el 60% de vapor.

Otro término importante es el punto de condensación o punto de rocío, representado por la temperatura a la cual el agua que está en el aire cambia de estado de gaseoso a líquido, es decir, cuando la HR = 100%. Entonces, el aire se considera saturado.

A medida que aumenta la temperatura del aire, aumenta la capacidad para retener agua, lo cual es otro buen motivo para mantener la temperatura controlada. Esto es un efecto secundario del consumo de aire frío por parte de los equipos informáticos. Cuando el aire frío pasa desde el frente de los servidores, sale con mayor temperatura y con mayor capacidad de retener agua.

¿Como cambia el aire cuando circula por dentro del servidor para mantener los componentes a una temperatura regulada?

El aire que ingresa por el frente del servidor para refrigerarlo tiene propiedades distintas cuando sale por la parte trasera. A mayor temperatura, menor HR e igual punto de condensación.Supongamos que por el frente del servidor ingresa el aire a 22°C, probablemente a la salida del equipo la temperatura sea aproximadamente 37°C. Así mismo la humedad relativa disminuye de 50% a 22% y el punto de condensación se mantiene igual a 12°C

Existen dos posibles amenazas relacionadas con la humedad relativa dentro del Data Center:

Descargas electroestáticas: las posibilidades de descargas electroestáticas, también conocidas como ESD (electrostatic discharge) se producen cuando la humedad baja. Asimismo, esas posibilidades aumentan aún más si la temperatura es baja. Las descargas electroestáticas pueden ser apenas perceptibles para las personas, pero no causan ningún tipo de daño. En cambio, una descarga de 10 Volts, ya es capaz de dañar un equipo.
Corrosión: ocurre cuando un elemento metálico es expuesto al agua, ya sea porque se moja o se generan pequeñas gotas causadas por la condensación de agua en el aire. Por ejemplo; en un ambiente con una humedad alta. Los elementos dentro de los servidores se pueden dañar y sufrir una pérdida de datos.

La clave es encontrar un equilibrio justo para tener lograr tener la humedad en un rango óptimo donde se eviten las descargas estéticas y de condensación. Por ello, el rango más adecuado de humedad es entre el 40% y el 55% (también es el rango recomendado por la norma TIA/EIA 942)

Por arriba del 55% podría haber síntomas de corrosión, y por debajo del 40% comenzarían a aumentar los riesgos de descargas estáticas.

En el mercado existen distintos tipos de soluciones para controlar la humedad del ambiente dentro del Data Center, como por ejemplo instalar humificadores: que son dispositivos que tiene sensores, los cuales envían señales para comenzar a funcionar cuando el umbral para el cual están configurados es alcanzado.

Como medida adicional de protección se pueden instalar supresores de sobretensiones transitorias o TVSS (Transient Voltage Surge Supressors) definidos por las normas eléctricas internacionales con el fin de proteger las instalaciones eléctricas de incrementos o picos de voltaje generados por fenómenos de carácter transitorios (lapso muy reducido de tiempo). Estos fenómenos inesperados pueden causar serios problemas en las instalaciones y en los equipos sensibles. Por esta razón, su importancia clave dentro del sistema de protecciones.

La sobrecarga puede tener dos fuentes de origen:

Interno: asociados con las sobretensiones relacionadas con maniobra y conmutación entre circuitos dentro de la propia instalación.
Externo: causado principalmente por descargas eléctricas provenientes de la atmósfera como pueden ser los rayos.

En 2011 el primer Data Center de Facebook ubicado en Prineville, Oregon (EEUU) sufrió un incidente a causa de sus sistemas de refrigeración donde la humedad relativa superó el 95%, generando condensación de agua sobre los equipos que generaron reinicios no programados a los servidores por problemas eléctricos. Artículo completo original aquí.

viernes, 10 de enero de 2014

UPS Giratoria (Flywheel UPS): un Nuevo Paradigma

La UPS giratoria es un sistema que asegura la continuidad del suministro eléctrico basado en un concepto antiguo, que consiste en transformar la energía cinética en energía eléctrica. Este dispositivo conlleva a un cambio paradigma para la mayoría de los Data Centers para los cuales una UPS tiene que tener baterías sí o sí.

Si a usted le preguntaran en qué país se inventó el reloj digital de cuarzo, probablemente dirá que fue en Japón, pero la respuesta es incorrecta.
En el año 1968 Suiza controlaba el 90% del mercado mundial de relojes. Un día un técnico de una de las mayores empresas de relojería mostró a sus jefes un nuevo modelo que acababa de inventar. Se trataba de un reloj electrónico de cuarzo. Su superior observó el prototipo y le dijo: “Esto no es un reloj”, y no dio ninguna importancia al descubrimiento, ya que no poseía cuerda, mecanismos ni engranajes. Le permitieron quedarse con la patente e incluso ir con el invento a una feria de relojería. Pasaron los japoneses y compraron. Poco tiempo después pusieron a la venta el reloj de cuarzo. Para el año 1982, el 90% del mercado que controlaban los suizos, se redujo al 15%. Perdieron el liderazgo y cincuenta mil puestos de trabajo por culpa de la nueva tecnología, ¡inventada por un suizo!

La UPS giratoria (también llamada o UPS rotativa o Flywheel UPS) funciona haciendo mover una rueda metálica muy pesada (de 300 kg o más) por medio de la energía eléctrica provista por la red, haciéndola girar a gran rapidez (entre 33000 y 77000 RPM según el fabricante), y por medio de la levitación electromagnética al vacío no entra en contacto con otros elementos, evitando así el rozamiento que frenaría la rueda. La inercia generada le permite rotar a gran velocidad durante un tiempo prolongado ya que no hay fricción. Así ese movimiento de energía cinética acumulada, entregará corriente eléctrica cuando se interrumpa el suministro de red. Si el suministro eléctrico se detiene, la rueda de gran masa que está girando a muchas revoluciones es capaz de proporcionar suficiente energía al Data Center durante unos segundos (entre 15 y 60 según la configuración).
La mayoría de la gente tiende a apegarse a la antigua tendencia de que una UPS debe tener la capacidad suministrar energía por al menos 15 minutos en caso de interrupción. Lo cierto es que este es un pre concepto heredado de los servidores Mainframe, cuyos procesos de apagado controlado demoraba ese tiempo, pero hoy en día apagar cualquier equipo actual demora mucho menos tiempo, y más aún si la instalación cuenta con generador.
Actualmente los generadores modernos son capaces de proveer energía estabilizada entre 2 a 10 segundos desde que se detecta la interrupción. ¿Qué sentido tiene tener una UPS con baterías que permite operar por 15 minutos cuando el generador entrega energía estabilizada solo en 5 segundos?

A continuación se detallan las principales ventajas y desventajas de las UPS giratorias en comparación las UPS tradicionales de batería.
Ventajas

Vida útil mayor a 20 años
Es más económica, teniendo en cuenta el costo a lo largo de la vida útil si se la compara con la UPS tradicional. Se estima un retorno de la inversión en aproximadamente tres años.
No utiliza baterías, produciendo grandes ahorros de energía, contaminación, enfriamiento, reemplazo y mantenimiento (sólo utiliza una pequeña batería para el arranque).
Ocupa menor superficie (por ejemplo, una UPS de 300 kVA ocupa solo 25% del espacio de una UPS de Conversión Doble, aunque puede llegar a pesar 2500 kg)
Su eficiencia oscila entre el 95% y el 98% (las UPS de batería tiene en promedio una eficiencia del 92%)
Su tiempo de carga es bajo: entre tres y ocho minutos, comparado con la UPS tradicional que puede llegar a tardar entre ocho y diez horas para completar la carga.
La operatoria es silenciosa (entre 45 y 70 decibeles a un metro de distancia).
Tiene una mayor amplitud térmica operacional (comparada con la UPS de batería)
Genera poca temperatura. Por ejemplo: una UPS de 300 kVA de 1.5 x 0.8 m y una altura menor a 2 m genera entre 5 kW/h y 7 kW/h de calor.
Las mediciones de la capacidad de la carga brindan datos más certeros comparados con la UPS de baterías.
MTBF: >50000 horas (las baterías de las UPS tiene un MTBF: <2200 horas)

Desventajas

Su inversión inicial es elevada.
Tiene poco tiempo de energía de resguardo, lo que genera una mayor dependencia del generador

Link recomendado: Comparación UPS giratoria vs. UPS batería

"Si hoy fuese el último día de mi vida, ¿querría hacer lo que voy a hacer hoy? Y si la respuesta era No durante demasiados días seguidos, sabía que necesitaba cambiar algo."

Steve Jobs

domingo, 27 de octubre de 2013

¿Porque los Estándares pueden Atrasarnos Tecnológicamente?

Cuando estamos diseñando un Data Center debemos elegir materiales que cumplan con los estándares homologados (cableado, fibra óptica, electricidad, etc.), pero es realmente lo más adecuado tecnológicamente?

¿Seleccionando un material estandarizado estamos adquiriendo una tecnología obsoleta?

Plantearse esa duda es muy interesante y probablemente la respuesta sea: Sí.

Pero porque elegir un material que cumple con los estándares de calidad (independientemente de la norma) no es lo mejor tecnológicamente?

El problema principal radica en que los estándares deben ser revisados y aprobados por muchas entidades, organismos, países, fabricantes, consultores técnicos, universidades, etc., y al igual que en la política el consenso entre partes lleva tiempo, es por eso que para cuando un estándar queda aprobado, los fabricantes ya han desarrollado o prácticamente sacado al mercado dispositivos o materiales que superan tecnológicamente al que se acaba de aprobar.

En el gráfico se puede ver la evolución de las categorías de cableado estructurado (ANSI/TIA) comparando la fecha de aprobación de los estándares en relación a la fecha de publicación (e incluso la fecha de diseño puede ser aún anterior):

Como se puede observar, la línea azul está permanentemente por detrás de la línea naranja, que muestra la fecha real de publicación de la categoría de cableado, con respecto a la azul, que es la fecha en la cual el estándar quedó aprobado. Quizás uno de los ejemplos más significativos sea el caso del cableado Cat. 6A que permite velocidades de hasta 10Gbps fue propuesto en el año 2000 y fue aprobado en el año 2008. El estándar anterior aprobado Cat. 6, solo permitía velocidades de hasta 1 Gbps.

Este ejemplo es solo una muestra general donde se comparan los estándares de cableado de cobre, pero el mismo concepto se aplica también para los otros estándares, como ser los de fibra óptica, normas eléctricas, normas de transmisión de datos, etc.

La dificultad de la decisión recae sobre aquellas personas que debe seleccionar que materiales utilizar para una obra que se planifica para los próximos 10 años (incluso algunos fabricantes de cables de datos ofrecen garantía hasta por 20 años).

Que debemos hacer? Seleccionamos materiales que están bajo una norma que se aprobó hace varios años o seleccionamos un material que se encuentra disponible en el mercado, que es más avanzado tecnológicamente, pero que aún no existe un estándar que lo avale. Vaya dilema!

Muchos pueden inclinarse a adquirir el material más moderno, pero se corre el riesgo de que finalmente haya algún parámetro o valor especifico que el material no cumple, pudiendo así no poder cumplir con el estándar, aunque esto tiene una probabilidad baja.

Aclaración sobre los organismos ISO/IEC y ANSI/TIA: ambas son entidades internacionales de estandarización reconocidas, pero la composición interna de sus miembros es distinta, lo que influye en los intereses particulares de cada uno.

ISO / IEC

Integrado por representantes de naciones, un voto por país.
Acuerdo OMC (Organización Mundial del Comercio) para evitar barreras técnicas al comercio.
Acuerdos de reconocimiento mutuo.
También participan los fabricantes.

ANSI / TIA

Integrado por empresas privadas, un voto por empresa.
Respalda los intereses tecnológicos y comerciales de sus asociados.

El principal problema de los estándares es que al intervenir tantos participantes, el proceso de aprobación es realmente largo y complejo, pudiendo tomar varios años, pero los requerimientos del mercado en base a las necesidades de los clientes, hace que aumente demandan productos que brinden mayores velocidades permanentemente, y las empresas privadas invierten mucho en investigación para lograrlo, adelantándose a los estándares. Por eso, a veces, resulta difícil seleccionar una tecnología de punta que quizás después puede no ser aprobada por los organismos que certifican los estándares. También está la disyuntiva de tener que elegir una tecnología de cableado proyectado el crecimiento a diez años, pero con un estándar aprobado cinco o siete años atrás, que quizás ya es obsoleto. Por esa razón, cuando se analiza la selección de un estándar de cableado estructurado es importante tener en cuenta su fecha de publicación del último estándar aprobado, cuales son los materiales disponibles en el mercado, para luego analizar pros y contras de cada uno, ya que probablemente la decisión no se puede postergar hasta cuando el ultimo estándar este aprobado.

Publicación del articulo en TechTarget:

http://searchdatacenter.techtarget.com/es/opinion/Pueden-los-estandares-atrasarnos-tecnologicamente

sábado, 7 de septiembre de 2013

Métricas en el Data Center

En este artículo comparto un resumen de las métricas más importantes para medir la eficiencia dentro del Data Center para luego poder tomar acciones correctivas ya que como dijo el célebre autor especialista en managment Peter Drucker, “Lo que no se puede medir, no se puede gestionar”.

PUE: Es uno de los parámetros más comunes para evaluar el desempeño eléctrico de un Data Center, (Power Usage Effectiveness): métrica que mide el valor de la eficiencia eléctrica en relación al consumo eléctrico total. Fue establecido por la organización The Green Grid, en particular por uno de sus directores, Christian Belady, y su fin es establecer un parámetro para identificar qué tan eficiente es el consumo actual de los equipos.

\[PUE=\frac{Consumo Eléctrico Total}{Consumo Eléctrico IT}\]

Ejemplo:

\[\frac{200 kW (Consumo Eléctrico Total)}{100 kW (Consumo Eléctrico IT)} = 2.0 PUE\]

Mientras menor sea el valor PUE, mejor será el aprovechamiento eléctrico, lo que se traduce en menores costos y menores emisiones de CO₂, permitiendo reducir la llamada “huella de carbono”.El valor perfecto sería un PUE = 1.0. Este número resulta prácticamente imposible de alcanzar, ya que quiere decir que toda la energía consumida por los equipos es igual a la ingresada en el Data Center para que funcione completamente, y donde la refrigeración, UPS, etcétera, no tuvieron consumo eléctrico. Adicionalmente esta métrica puede subdividirse en 4, para obtener diferentes valores que permitan hacer un análisis más detallado, como se enumeran a continuación:
PUE₀: se calcula igual que el PUE, pero se toma el pico del consumo eléctrico sobre el consumo eléctrico de los equipos de IT a la salida de la UPS (ambos en el último año).
PUE₁: se calcula igual que el PUE, pero se toma el consumo eléctrico total acumulado sobre el consumo eléctrico de los equipos de IT acumulados a la salida de la UPS, ambos valores medidos en el último año.
PUE₂: similar al anterior, pero la carga de los equipos de IT se toma a la salida de la PDU (Power Distribution Unit).
PUE₃: similar al anterior, pero la carga de los equipos de IT se mide en la entrada a ellos.

DCiE: Parámetro utilizado en la evaluación de la eficiencia, derivado del anterior, que mide el porcentaje de eficiencia llamado DCiE (Data Centre infrastructure Efficiency), la cuantificación de DCiE fue creada para entender más fácilmente la eficiencia del Data Center. Por ejemplo, un valor DCiE de 28% equivale a un PUE de 2,8. Por ejemplo, si tenemos una factura por consumo eléctrico de 1.000 dólares, sabremos que 280 dólares fueron los realmente consumidos por los equipos de IT.

\[DCiE=\frac{Consumo Eléctrico IT}{Consumo Eléctrico Total} * 100 =\frac {1}{PUE} * 100\]

WUE: se utiliza para evaluar la eficiencia del consumo de agua en los equipos de refrigeración en relación a la cantidad de kW/h, conocida como por sus siglas WUE (Water Usage Effectiveness), y se define como el uso anual del agua dividido por la cantidad de energía utilizada por el equipamiento TI. Las unidades de WUE son litros por kW consumidos por hora (calculados anualmente)

\[WUE=\frac{Consumo Anual De Agua (Litros)}{Consumo Eléctrico IT (kW/h)}\]

Para más información, pueden consultar el link completo del artículo completo en PDF aquí.

CCF: es una métrica creada por la empresa Upsite, que se utiliza para gestionar la eficiencia de refrigeración en el Data Center, por las siglas de Cooling Capacity Factor. Se calcula mediante el cociente entre la capacidad total de refrigeración sobre la carga de consumo de los dispositivos de IT (a la salida de la UPS) aumentada en un 10% (ese 10% adicional está atribuido otros factores que interfieren en el cálculo, como ser: iluminación, personas, estructura, etc)

\[CCF=\frac{Capacidad Total Refrigeración}{Consumo Eléctrico IT (Salida UPS) *1,1} =\frac {215 kW}{150 kW * 1,1} = 1,3\]

El valor de CCF recomendado es 1,2 or 120%. Lo que significa que la capacidad de refrigeración está funcionando al 120% de la carga TI. Un CCF que oscila entre 1,0 y 1,1 significa que la capacidad de refrigeración redundante es prácticamente nula. Si los valores van de 1,2 a 1,5 es posible que se puedan realizar modificaciones en los sistemas de enfriamiento que permitan ahorrar dinero. Si el valor es superior a 1,5 estamos sin dudas frente a un ambiente donde se pueden hacer muchas mejoras para reducir los costos en enfriamiento. Generalmente la mayoría de los Data Centers entran en esta última categoría.
Articulo original en PDF disponible aquí, Link a la calculadora de CCF online aquí

ERE: es otra métrica importante creada por The Green Grid utilizada para calcular la eficiencia de la reutilización de la energía (Energy Reuse Effectiveness), como por ejemplo podría ser la reutilización del calor generado por los equipos para aclimatar las instalaciones edilicias. Es una fórmula similar al PUE, pero al consumo eléctrico del Data Center (en el numerador) se le resta el ahorro de energía eléctrica generado por la reutilización.

\[ERE=\frac{(Consumo Eléctrico Equipos Data Center) - (Energía Reutilizada)}{Consumo Eléctrico IT }\]

Link articulo original en PDF aquí.
Para un nivel de detalle mayor y orientado con un enfoque puramente ecologista, existe otra métrica relacionada a esta llamada CUE (Carbon Usage Effectiveness), en donde se analiza la cantidad total de emisiones de CO₂ causada por los equipos del Data Center sobre el consumo eléctrico de los equipos de IT.

UUR: la métrica UUR (Utilización Unitaria de Rack) consiste en evaluar el porcentaje de utilización de cada Rack medido en "U" o unidades de Rack. Esta información es útil para comprender la utilización total y poder asociar esa utilización con el consumo o la generación de calor que provoca cada Rack analizando si el flujo de refrigeración es el correcto, ya que lo no es lo mismo un Rack de comunicaciones que solo tiene patchears que otro donde hay cinco cajones de servidores blade.
Por cada uno de los Racks del Data Center se debe hacer este simple cálculo:

\[UUR=\frac{"U"Disponibles-"U" Utilizadas}{"U" Disponibles} * 100 \]

Aquí les dejo una planilla de cálculos con la fórmula, donde solo tienen que completar la cantidad de U utilizadas y el consumo eléctrico por cada Rack. Archivo aquí.
Para aquellas personas que desean tener un detalle más completo de la utilización del espacio, existen otras métricas más complejas que permiten analizar la disponibilidad física dentro del Data Center, como ser: DCSE (Data Center Space Efficiency Metric) es un conjunto de métricas complejas desarrolladas por David Cappuccio (Gartner) que tienen por finalidad establecer la utilización real de los espacios dentro del Data Center.

Conclusión final: todas las métrica previamente enumeradas carecen de poco valor práctico de aplicación si al momento de hacer los cálculos no se tiene preestablecido cuales son los objetivos buscados, ya sea desde una visión ecológica orientada a la sustentabilidad o la intención de reducir costo. La métrica no es un objetivo en si mismo, sino que debe ser una herramienta para la toma de decisiones, basado en la información obtenida históricamente en el transcurso del tiempo.

domingo, 28 de julio de 2013

Cúal es la Temperatura Correcta de un Data Center?

Dentro del Data Center, mantener la temperatura adecuada de forma estabilizada y controlada es una pauta fundamental del control ambiental, permitiendo el establecimiento y ejecución de una política claramente definida que contribuya a tener un Data Center robusto, confiable y durable.
El rango de temperatura óptimo para un Data Center es entre 17 °C y 21 °C. Es necesario aclarar que esa temperatura no es de carácter obligatorio e inamovible, sino que existe también un margen aceptable de operación que sería de 15 °C y 25 °C.
Cualquier temperatura mayor a 25 °C deberá ser corregida de manera inmediata, ya que implica poner en riesgo el equipamiento del Data Center.

Este rango de temperatura operacional es el indicado por los fabricantes de circuitos integrados para lograr un funcionamiento ideal en rendimiento y durabilidad, devenido de la Ley de Arrhenius [Svante August Arrhenius (1859-1927) fue un científico físico-químico sueco, galardonado con el Premio Nobel de Química, en 1903] o también conocida como la Regla de los 10 grados. Esta regla dice que la vida de un componente o material se reduce a la mitad por cada 10 ºC de aumento en la temperatura; aplicado inversamente: por 10 ºC de disminución de temperatura, la vida útil de un semiconductor se duplicará.
En los grandes Data Centers, la temperatura es difícil de medir, ya que no existe un único punto de referencia para tomar la muestra. Por ello se debe realizar por pasillos, y hasta en algunos casos, se puede llegar a tomar la temperatura en varios Racks.
Actualmente en el mundo de IT, existe una discusión sobre cuál es la temperatura ideal para operar un Data Center debido a la publicación de las mejores prácticas recomendadas por el reconocido organismo ASHRAE [American Society of Heating, Refrigerating and Air Conditioning Engineers] en 2011, donde la entidad sugiere un rango de operación permitido más amplio según el tipo de Data Center, es decir, más elevado que lo afirmado en su previa publicación en 2008, y más aún comparada contra la versión del 2004.
En 2004 la recomendación de operación era entre 20 °C y 25 °C; en la publicación del año 2008, el rango recomendado se amplió a 18 °C y 27 °C. En el año 2011, el rango recomendado se mantuvo, pero se amplió el rango permitido de 5 °C a 40 °C (cabe aclarar que esto no es para todos los tipos de Data Centers, sino que varía según su clasificación).
El principal impulsor para ampliar los límites provino de la necesidad de la industria de tener mayor flexibilidad, y al mismo tiempo, de reducir costos en enfriamiento, para lo cual se debe tener un claro conocimiento de la edad de los servidores y su política de renovación. No es lo mismo renovar los equipos cada tres, cinco o siete años, si bien cuando se compran los equipos nadie lo hace pensando que van durar 10 años; en la práctica termina siendo mucho más habitual de lo que creemos, ya sea por razones presupuestarias o dificultades de migración.

Si sabemos que nuestros equipos se renuevan siempre cada tres años probablemente no tengamos problemas operando nuestro Data Center a 27 °C. En cambio, si sabemos que la vida útil de nuestros servidores va a ser mucho más extendida, deberíamos pensar en un rango de operación más bajo para así prolongar la duración de los equipos. Como se citó anteriormente, según la Regla de los 10 grados, a menor temperatura, mayor es la durabilidad de los componentes.
Por otra parte la norma TIA/EIA-942 recomienda como rango aceptable de temperatura entre 20 °C y 25 °C.

¿Qué rango de temperatura recomiendan los principales fabricantes de servidores?

IBM: 22 °C
Dell: 23 °C
HP: 22 °C

¿A qué temperatura operan los Data Centers de las grandes empresas?

Google: 26 °C (*)
Sun: 27 °C (*)
Cisco: 25 °C (*)
Facebook: 22°C (*)

(*) Información disponible en la sección “Video Tour” de la página http://www.datacenterknowledge.com/

domingo, 9 de junio de 2013

Data Centers Extremos

Un Data Center o también llamado CDP (Centro de Procesamiento de Datos) es un espacio con determinadas características físicas especiales de refrigeración, protección y redundancia, cuyo objetivo es alojar todo el equipamiento tecnológico de la compañía brindando seguridad y confiabilidad.
La variedad y calidad de los niveles de servicio que pueden alcanzar son muy variados, dependiendo principalmente de las necesidades del negocio se desean satisfacer, ya que no es lo mismo ser un proveedor de servidores "cloud" de misión crítica, que alojar algunos servidores de uso interno de una organización donde la actividad principal es por ejemplo el análisis y procesamiento de información para investigaciones poblacionales.
Estas variedades son enormes y también así de diversos los costos asociados, ya que se puede pasar de un Data Center sin redundancia a uno son varios niveles de redundancia por cada componente.
A continuación se ejemplificarán algunos de los Data Centers más extremos del mundo según esas necesidades o estrategias de diseño.

Extremos en seguridad:
Un ejemplo de Data Center con medidas de seguridad extremas podría ser el que terminará de construir para 2013 la agencia estadounidense NSA (National Security Agency) en Bluffdale, Utah, destinado a almacenar el sistema de espionaje más complejo del mundo, capaz de analizar: búsquedas de ciertas palabras claves, correos electrónicos, llamadas telefónicas, datos bancarios, fotos, etcétera. La revista Wired reveló en abril de 2012 que el programa tiene un presupuesto estimado en 2.000 millones de dólares para una superficie aproximada 9.000 m2, capaz de albergar cientos de Racks, además contará con otro espacio mucho más grande para oficinas administrativas y técnicas, lo que lo convierte también es uno de los más costosos. Solo para el programa antiterrorista perimetral se destinaron 10 millones de dólares, que incluye una valla diseñada para detener un vehículo de hasta 6 toneladas circulando a 80 km/h. Además posee su propia subestación eléctrica para una demanda de 65 MW, combustible para operar los generadores por tres días consecutivos y un sistema de enfriamiento capaz de proporcionar 60.000 toneladas de enfriamiento con tanques de agua que pueden acumular más de 6 millones de litros de agua

Otro ejemplo es el del ISP sueco, Bahnhof, que en 2008 rediseñó las instalaciones de un bunker militar antinuclear construido en Escolmo durante la guerra fría, como espacio físico para alojar sus equipos.
Ubicado a 30 metros bajo tierra, con puertas de 40 cm de ancho, 2 motores diesel de submarino con capacidad de 1,5 MW cada uno para generar energía en caso de interrupción, tres cableados principales de Internet redundantes ( dos de fibra óptica y uno de cobre)
Si desean ver las fotos completas, remitirse al artículo original aquí

Extremos en velocidad de red:
¿Cual es el Data Center que ofrece mayor velocidad? Realmente la respuesta es difícil, ya que actualmente en el mercado existen equipos de red con capacidades de transmitir por fibra óptica a cortas distancias a 40 Gb, obviamente, para los gigantes informáticos como Google, IBM, Cisco, etc, comprar varios de estos dispositivos y ampliar la capacidad de red a 100Gb no es tarea compleja, pero actualmente científicos del Laboratorio Nacional Los Alamos, de la Universidad de California, desarrollaron un prototipo de muchísimo más rápida llamada: red cuántica que lleva más de dos años en actividad.
Además de conseguir velocidades nunca antes alcanzadas y sería invulnerable ya que utiliza un nuevo paradigma computacional. Si bien desde hace un tiempo se habla de la computación cuántica, el retraso en su implementación se debe a que todavía está lejos de ser una realidad comercial. Ver nota recomendada aquí. Actualmente los científicos que trabajan en ella estiman que no será masiva hasta dentro de 10 años.

Extremos en condiciones ambientales ecológicas:
Existen muchos ejemplos de Data Centers ecológicos, ya que la forma en que refrigeran los equipos y como generan la energía eléctrica son las dos variables que más influyen a la hora de determinar la eficiencia ecológica y varían según la ubicación geográfica.
Google terminó de construir en Hamina, Finlandia, ubicado en una antigua papelera, con una inversión de 252 millones de dólares, y para el cual utilizarán un sistema de refrigeración por agua. Gracias a su excelente ubicación geográfica puede tomar el agua fría del Mar Báltico, ahorrando así una considerable cantidad de dólares por año en refrigeración. Este tipo de estrategias le permiten a Google reducir año a año de manera continua el uso de energía necesaria para mantener operativo sus servidores, como lo muestra una publicación reciente de la firma en su blog. Y más aún cuando se inaugure en 2015 la central eólica ubicada en Maevaara que proveerá energía eléctrica no contaminante.

Otro caso es el de la empresa de hosting estadounidense AISO que en su Data Center de 2.000 m2, dispone de 120 paneles solares, lo que le hace ahorrar hasta 3.000 dólares mensuales en electricidad. Para la iluminación de sus oficinas tiene montado un sistema de tubos que redirigen la luz solar hacia las lamparas del interior. Adicionalmente
posee de un sistema recolector de agua de lluvia, que luego es utilizado en la refrigeración para el aire acondicionado de los equipos, lo que le permite tener un PUE = 1,14. Este podría ser en definitiva uno de los centros de datos más “verdes” del planeta.
Facebook también está innovando en este área inaugurando un nuevo Data Center en Lulea, suecia.con un PUE=1,07 basado en energía hidroeléctrica 100% renovable, ver link con el anuncio oficial aquí.

Extremos en tamaño:
El Data Center más grande del mundo está ubicado en Langfang, China. El proyecto ocupa un área de 1.341.867 m2, con 2.622.470 m2 de construcción, de los cuales 620.000 m2 estará destinados al sector exclusivo para Data Center, lo convierte en el mayor emprendimiento del mundo.