Super Mensajes
AWS es el servicio de alojamiento y proceso de nube más importante de la Internet
AWS es el servicio de alojamiento y proceso de nube más importante de la Internet | Fuente: AWS

Amazon Web Services es, por mucho, el soporte de gran parte de la internet. Por esa razón, diversos servicios reportan caídas considerables en los últimos minutos, de acuerdo con el sistema de notificaciones DownDetector. Desde el mediodía del martes, los reportes de AWS indican una degradación preocupante en el rendimiento de la red dedicada a la costa este en Estados Unidos, y esto afecta a cada plataforma alojada en sus sistemas: OpenAI, McDonald´s, Delta y otras compañías de alto tránsito.

“Seguimos experimentando mayores tasas de error y latencias para varios servicios de AWS en la región US-EAST-1”, destaca el portal de AWS. “Hemos identificado la causa raíz como un problema con AWS Lambda y estamos trabajando activamente para resolverlo. Estamos trabajando activamente en la mitigación completa y continuaremos brindando actualizaciones periódicas”.

Los múltiples reportes de usuarios señalan que un 40% de usuarios tiene problemas para acceder a la consola de AWS, una aplicación basada en la web que le permite acceder y administrar recursos de Amazon Web Services (AWS). Proporciona una interfaz gráfica de usuario (GUI) para administrar sus servicios de AWS, incluidos Amazon Elastic Compute Cloud (EC2),Amazon Simple Storage Service (S3) y Amazon Relational Database Service (RDS). Básicamente, es la cabina de control de AWS en un dominio.

"Seguimos trabajando para resolver las tasas de error que invocan las funciones de Lambda. También estamos observando errores elevados al obtener credenciales temporales del servicio de token de seguridad de AWS y estamos trabajando en paralelo para resolver estos errores", indica AWS en una actualización. Lambda es un servicio que permite ejecutar código sin aprovisionar ni administrar servidores, y ejecuta su código en una infraestructura informática de alta disponibilidad y realiza toda la administración de los recursos informáticos, incluido el mantenimiento del sistema operativo y del servidor, el aprovisionamiento de capacidad, el escalado automático, y el registro.

AL caer un servicio de alojamiento, los sistemas que usan AWS para hostear contenido o atender servicios automatizados suelen presentar problemas. Es decir, si una empresa tiene su sistema "montado" sobre AWS; Google, Huawei o cualquier otra nube, y ésta cae, se vuelve inaccesible. Esto impacta en pérdida de tráfico en tiempo real, problemas de usuarios sin respuesta y un cúmulo de operaciones - bancarias, logísticas, financieras y de todo tipo -que se quedan en standby.

Es el caso de Webflow, un sistema montado sobre AWS que ofrece servicios de hosting y diseño de páginas web. "La interrupción actual de AWS está provocando un rendimiento degradado en Webflow y algunas interrupciones en los sitios web alojados. Nuestro equipo está trabajando activamente para restaurar el rendimiento, nos disculpamos por cualquier inconveniente que esto pueda haber causado".

El 7 de diciembre de 2021, OOKLA registro desde las 11 de la mañana una serie de caídas en servicios alojados en AWS. Reportes internos de Amazon identificaron el problema en la parte este de los Estados Unidos, pero esto provocó una cascada de desconexiones a nivel global.

"Estamos experimentando problemas con la API y la consola en la región US-EAST-1", mencionó Amazon en un informe sobre su panel de estado del servicio. “Hemos identificado la causa raíz y estamos trabajando activamente hacia la recuperación. Este problema está afectando a la página de inicio de la consola global, que también está alojada en US-EAST-1”.

La interrupción afectó a una amplia gama de servicios de AWS, incluidos EC2, S3, RDS, DynamoDB y Route 53. También afectó a varios servicios de terceros que dependen de AWS, como Slack, Okta y Duo Security. La interrupción causó una interrupción significativa para muchas empresas y organizaciones.

A través de su sitio de reportes, AWS señaló que han logrado identificar el problema y que han iniciado un plan de contingencia para estabilizar el sistema: "A partir de las 11:49 a. m. PDT, los clientes comenzaron a experimentar errores y latencias con varios servicios de AWS en la región US-EAST-1. Nuestros equipos de ingeniería se involucraron de inmediato y comenzaron a investigar. Rápidamente redujimos la causa raíz para que fuera un problema con un subsistema responsable de la administración de la capacidad de AWS Lambda, que causaba errores directamente a los clientes (incluso a través de API Gateway) e indirectamente a través del uso por parte de otros servicios de AWS. Ahora estamos observando una recuperación sostenida de las tasas de error de invocación de Lambda y la recuperación de otros servicios de AWS afectados. Continuamos monitoreando de cerca mientras trabajamos hacia la recuperación total en todos los servicios".

ACTUALIZACIÓN: Finalmente, AWS indicó que los sistemas volvieron a la normalidad y que, paulatinamente, los servicios comenzarán a restituir el acceso. Este evento tuvo una duración de casi dos horas, desde la detección hasta la recuperación de operaciones.