LA PLATAFORMA RECONOCE EL ERROR

Facebook da más explicaciones: “La interrupción fue provocada por el sistema que administra nuestra capacidad de red troncal global”

PARA LA PLATAFORMA, ESTE FRACASO HA SIDO UNA OPORTUNIDAD PARA APRENDER Y MEJORAR

por Carleth Morales
— 06/10/2021
en Noticias de Comunicación

Supuestamente, durante uno de los trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad troncal global, que involuntariamente eliminó todas las conexiones en la red troncal, desconectando efectivamente los centros de datos de Facebook a nivel mundial

Ahora que Facebook está funcionando con normalidad después de la caída más larga de su historia, y tras pedir disculpas a sus usuarios por la interrupción, da más explicaciones sobre lo sucedido. Santosh Janardhan, Vicepresidente de Infraestructura, ha afirmado en un comunicado que “la interrupción fue provocada por el sistema que administra nuestra capacidad de red troncal global. La columna vertebral es la red que Facebook ha construido para conectar todas nuestras instalaciones informáticas, que consiste en decenas de miles de millas de cables de fibra óptica que cruzan el mundo y unen todos nuestros centros de datos”.

Explica Janardhan que esos centros de datos vienen en diferentes formas. Algunos son edificios masivos que albergan millones de máquinas que almacenan datos y ejecutan las pesadas cargas computacionales que mantienen las plataformas en funcionamiento, y otros son instalaciones más pequeñas que conectan la red troncal a Internet más amplio y a las personas que usan las plataformas.

Así funciona Facebook

El Vicepresidente de Infraestructura explica que cuando abre una de las aplicaciones y carga su feed o mensajes, la solicitud de datos de la aplicación viaja desde el dispositivo a la instalación más cercana, que luego se comunica directamente a través de la red troncal a un centro de datos más grande. Ahí es donde la información que necesita la aplicación se recupera y procesa, y se envía de vuelta a través de la red a su teléfono.

El tráfico de datos entre todas estas instalaciones informáticas es gestionado por routers, que averigan dónde enviar todos los datos entrantes y salientes. Y en el extenso trabajo diario de mantenimiento de esta infraestructura, los ingenieros de Facebook a menudo necesitan desconectar parte de la red troncal para el mantenimiento, tal vez reparando una línea de fibra, agregando más capacidad o actualizando el software en el propio enrutador.

Y así se desconectó

Esta fue la fuente del apagón de ayer, asegura Santosh Janardhan. Durante uno de los trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad troncal global, que involuntariamente eliminó todas las conexiones en la red troncal, desconectando efectivamente los centros de datos de Facebook a nivel mundial.

“Nuestros sistemas están diseñados para auditar comandos como estos para evitar errores como este, pero un error en esa herramienta de auditoría le impidió detener correctamente el comando”, ha dicho el ingeniero.

Este cambio provocó una desconexión completa de las conexiones de los servidores entre los centros de datos e Internet. Y esa pérdida total de conexión causó un segundo problema que empeoró las cosas.

Los famosos DNS y BGP

Uno de los trabajos que se realiza en las instalaciones más pequeñas es responder a las consultas de DNS. DNS es la libreta de direcciones de Internet, lo que permite que los nombres web simples que escriben en los navegadores se traduzcan en direcciones IP de servidor específicas.

Esas consultas de traducción son respondidas por los servidores de nombres autorizados que ocupan direcciones IP bien conocidas, que a su vez se anuncian al resto de Internet a través de otro protocolo llamado ‘protocolo de puerta de enlace fronteriza (BGP)’.

“Para garantizar un funcionamiento confiable, nuestros servidores DNS deshabilitan esos anuncios BGP si ellos mismos no pueden hablar con nuestros centros de datos, ya que esto es una indicación de una conexión de red en mal estado. En la reciente interrupción, toda la columna vertebral se eliminó de la operación, lo que hace que estas ubicaciones se declaren insalubres y retiren esos anuncios de BGP. El resultado final fue que nuestros servidores DNS se volvieron inaccesibles a pesar de que todavía estaban operativos. Esto hizo imposible que el resto de Internet encontrara nuestros servidores”, explicó.

Al parecer, todo esto sucedió muy rápido. Y a medida que los ingenieros trabajaban para averiguar qué estaba sucediendo y por qué, se enfrentaron a dos grandes obstáculos: primero, no fue posible acceder a los centros de datos a través de los medios normales porque sus redes estaban caídas, y segundo, la pérdida total de DNS rompió muchas de las herramientas internas que normalmente usan para investigar y resolver interrupciones como esta.

Los ingenieros tuvieron que correr

Como el acceso a la red principal y fuera de banda estaba caído, los ingenieros tuvieron que movilizarse hacia a los centros de datos para depurar el problema y reiniciar los sistemas. Y esto tomó tiempo, porque las instalaciones están diseñadas con altos niveles de seguridad. Es difícil entrar en ellas y, una vez dentro, el hardware y los enrutadores están diseñados para que sean difíciles de modificar.

Por lo tanto, tomó tiempo adicional activar los protocolos de acceso seguro necesarios para que las personas pudieran estar en el sitio y trabajar en los servidores. Solo entonces pudieron confirmar el problema y volver a poner la columna vertebral en línea.

Santosh Janardhan relata que, una vez que se restauró la conectividad de red troncal en todas las regiones de los centros de datos, todo volvió a aparecer. “Pero el problema no había terminado: sabíamos que volver a activar nuestros servicios de una vez podría causar una nueva ronda de accidentes debido a un aumento en el tráfico. Los centros de datos individuales estaban reportando caídas en el uso de energía en el rango de decenas de megavatios, y de repente revertir tal caída en el consumo de energía podría poner en riesgo todo, desde sistemas eléctricos hasta cachés”, puntualizó.

De simulacro a realidad

Al parecer, este es un evento para el que estaban preparados gracias a los simulacros de tormenta que ejecutan normalmente. En estos ejercicios simulan una falla importante del sistema desconectando un servicio, centro de datos o región entera, probando toda la infraestructura y el software involucrados.

“La experiencia de estos simulacros nos dio la confianza y la experiencia para volver a poner las cosas en línea y administrar cuidadosamente las cargas crecientes. Al final, nuestros servicios volvieron a subir relativamente rápido sin más fallas en todo el sistema. Y aunque nunca antes habíamos corrido una tormenta que simulara que nuestra columna vertebral global se desconectara, ciertamente buscaremos formas de simular eventos como este en el futuro”, señaló el ingeniero.

Facebook reconoce que este fracaso ha sido una oportunidad para aprender y mejorar, y que aun hay mucho que aprender. “Después de cada problema, pequeño y grande, hacemos un extenso proceso de revisión para comprender cómo podemos hacer que nuestros sistemas sean más resistentes. Ese proceso ya está en marcha”, concluye.

Seguiremos comunicando…