La causa del incidente estuvo asociada a un escenario excepcional no contemplado
previamente, originado por un loop involuntario de solicitudes durante la ejecución de pruebas
de alta concurrencia en un entorno específico.
Este comportamiento provocó un crecimiento sostenido y acelerado del volumen de requests
simultáneos, lo que derivó en una saturación de las conexiones hacia la base de datos y afectó
directamente el rendimiento del servicio de rutas.
Este escenario no se había presentado anteriormente en producción, ya que los patrones
normales de uso no alcanzan este nivel de concurrencia, lo que explica el carácter inesperado
del incidente.
Medidas Preventivas Implementadas
Con el objetivo de evitar la recurrencia del incidente, se implementaron las siguientes mejoras
técnicas:
Optimización del manejo de conexiones a la base de datos mediante persistencia y
control de concurrencia.
Configuración explícita de límites de conexión para prevenir saturación ante picos de
carga.
Reducción del overhead generado por múltiples solicitudes simultáneas.
MONITORING
Desactivación temporal del caché para restablecer la operación del servicio de rutas con
tiempos de respuesta controlados.
IDENTIFIED
Durante el periodo del incidente, el servicio presentó los siguientes efectos:
Tiempos de respuesta superiores a lo esperado.
Errores de timeout a nivel de aplicación.
Respuestas HTTP intermitentes en el endpoint de rutas.
INVESTIGATING
El 9 de enero de 2026 se registró un incidente que afectó únicamente al servicio de rutas de la
API MapVX, generando tiempos de respuesta elevados y errores de timeout para algunos
clientes.
El evento se originó cuando un cliente, durante la ejecución de pruebas en un entorno
específico, generó involuntariamente un loop de solicitudes hacia la API, provocando un
crecimiento acelerado y sostenido del volumen de requests concurrentes. Este comportamiento
derivó en una carga inusualmente alta, exponiendo un manejo no esperado de las conexiones
hacia la base de datos, escenario que no se había presentado previamente en producción
debido a que las condiciones normales de operación no alcanzan este nivel de concurrencia.
El incidente fue identificado y mitigado oportunamente, permitiendo retomar la operación del
servicio, y posteriormente se implementaron las correcciones definitivas para resolver la causa
raíz, quedando el servicio completamente restablecido.