12 agosto, 2025

Midiendo tiempo en incidentes: MTTR, MTBF, MTTF, MTTA, entre otros

Recordando unas viejas épocas cuando viví de la atención de incidentes (TI y Cyber), están algunas métricas claves para identificar diferentes tipos tiempos.

Por que métricas en la gestión de incidentes ?

Para identificar en donde se va el tiempo, recurso finito y muy valioso, hay que medir y clasificar para hallar en donde se encuentra el mayor consumo del mismo y poder optimizarlo (o corregir). Ademas nos permite comparar que tan bien (o desviados estamos) respecto a algo (que se defina y sea comparable). Para ello, se debe saber exactamente que queremos medir (y como medir)


Métricas Claves

Hay que tener la siguiente línea del tiempo en donde se ubican los diferentes periodos de medición:

(en la gráfica no están todos, pero si los mas relevantes)

Métrica

¿Qué mide?

¿En qué se enfoca?

Importancia

Área habitual

Ejemplo

Cálculo

MTTR
(R
epair)

Tiempo promedio desde que ocurre una falla hasta que se repara.

Reparación técnica.

Minimiza el tiempo fuera de servicio.

Infraestructura TI, ingeniería, mantenimiento.

Falla a las 10:00, reparado a las 10:30 → 30 min.

Tiempo total de reparación / Número de reparaciones

MTTR
(R
ecovery)

Tiempo promedio para restaurar el servicio tras un incidente.

Recuperar operación del sistema.

Asegura continuidad del negocio.

TI, ciberseguridad, operaciones.

Caída a las 10:00, recuperación 10:45 → 45 min.

Tiempo total desde la falla hasta la restauración / Número de incidentes

MTTR
(R
espond)

Tiempo promedio entre detección y el inicio de acciones de respuesta.

Reacción activa.

Reduce impacto del incidente.

SOC, NOC, TI.

Ataque detectado 10:00, mitigación 10:10 → 10 min.

Tiempo desde detección hasta inicio de respuesta / Número de incidentes

MTTR
(R
esolve)

Tiempo para resolver completamente un incidente (no solo restaurar).

Resolución definitiva.

Previene recurrencias.

Gestión de incidentes, soporte técnico.

Incidente 10:00, resuelto 11:00 → 1 h.

Tiempo desde que ocurre el incidente hasta su resolución / Número de incidentes

MTBF
[Mean Time Between Failure]

Tiempo promedio entre fallas sucesivas.

Confiabilidad.

Evalúa robustez del sistema.

Electrónica, ingeniería, sistemas críticos.

Falla a las 10:00, otra a las 14:00 → 4 h.

Tiempo total de operación / Número de fallas

MTTF
[Mean Time To Failure]

Tiempo medio hasta el primer fallo de un componente.

Durabilidad sin mantenimiento.

Útil en diseño y calidad.

Hardware, electrónica.

Equipo dura 5000 h → MTTF = 5000 h.

Tiempo total de operación hasta el primer fallo / Número de dispositivos

MTTA
[Mean Time To Acknowledge]

Tiempo desde la detección hasta que alguien reconoce el incidente.

Atención inicial.

Mide eficiencia del equipo.

SOC, helpdesk, operaciones.

Alerta a las 10:00, reconocida 10:05 → 5 min.

Tiempo desde detección hasta reconocimiento / Número de alertas

Uptime

Porcentaje de tiempo activo del sistema.

Disponibilidad.

Mide cumplimiento de SLA.

Infraestructura, servicios en la nube.

99.9% uptime mensual.

((Tiempo total - tiempo de inactividad) / tiempo total) × 100

Downtime

Tiempo total fuera de servicio.

Indisponibilidad.

Afecta operaciones y experiencia.

TI, operaciones.

2 h de caída en un mes.

Suma de todos los periodos de inactividad

MTTD
[Mean Time To Detect]

Tiempo entre el inicio del incidente y su detección.

Visibilidad.

Permite respuestas tempranas.

Ciberseguridad, monitoreo.

Ataque a las 10:00, detectado 10:20 → 20 min.

Tiempo desde el inicio del incidente hasta su detección / Número de incidentes

MTTI
[Mean Time To Investigate]

Tiempo promedio en investigar un incidente.

Análisis forense o técnico.

Entiende qué ocurrió y por qué.

Ciberseguridad, soporte.

Detectado 10:00, investigación 11:00 → 1 h.

Tiempo total de investigación / Número de incidentes

MTRS
[Mean Time Restore Service]

Tiempo promedio para restaurar un servicio tras una caída.

Recuperación de servicios.

Cumple SLA.

TI, operaciones.

Caída a las 10:00, servicio vuelve 10:40 → 40 min.

Tiempo total para restaurar servicio / Número de incidentes

MTBSI
[
Mean Time Between System Incidents]

Tiempo promedio entre incidentes del sistema.

Estabilidad.

Mide frecuencia de incidentes.

Gestión de incidentes, TI.

1 incidente cada 72 h.

Tiempo total entre incidentes / Número de incidentes

Failure Rate
[Tasa de Fallos]

Fallas por unidad de tiempo.

Frecuencia de errores.

Evalúa fiabilidad.

Calidad, ingeniería.

5 fallas en 1000 h → 0.005 fallas/h.

Número de fallas / Tiempo total de operación



RAM: reliability, availability & maintainability

Marco fundamental en ingeniería, operaciones, infraestructura y ciberseguridad para evaluar el desempeño general de sistemas críticos
  • Fiabilidad (Reliability)
    Es la probabilidad de que un sistema realice consistentemente su función prevista sin fallar durante un período de tiempo
    • Significa que los sistemas de TI funcionan de manera consistente y no se averían inesperadamente. 
    • Se mide y predice con métricas de fallo como MTBF, MTTF y tasas de fallo.
    • Ejemplo:
      Un sistema que funciona 1000 horas sin fallas es más confiable que uno que falla cada 100 horas.
  • Disponibilidad (Availability)
    Es la probabilidad de que un sistema esté funcionando como se diseñó cuando se necesita usar. Es una función de la fiabilidad y la mantenibilidad.
    • Cálculo: 
      • MTBF / (MTBF + MTTR) 
      • Uptime / Tiempo total
    • Ejemplo:
      Un servidor con 99.99% de disponibilidad solo estaría caído unos 5 minutos al mes.
  • Mantenibilidad (Maintainability): Describe la facilidad y velocidad con la que un sistema y sus componentes pueden ser reparados o reemplazados y luego restaurados a plena operación después de un fallo. 
    • Se mide, entre otras cosas, con el MTTR; un MTTR bajo indica alta mantenibilidad.
    • Ejemplo:
      Un sistema modular y con buena documentación se repara más rápido que uno complejo y mal diseñado.

🧩 Interrelación entre RAM

Estas tres dimensiones no son independientes. Cambios en una pueden afectar a las otras:

  • Mayor reliability reduce la necesidad de mantenimiento, lo que mejora la availability.
  • Mayor maintainability reduce el downtime, lo que también mejora la availability.
  • Mala maintainability puede esconder problemas de baja reliability.


📌 Aplicaciones del análisis RAM

  • Diseño de sistemas críticos (aeroespacial, ferroviario, militar).
  • Gestión de activos físicos (plantas industriales, telecomunicaciones).
  • TI y ciberseguridad, en SLAs, centros de datos y servicios cloud.
  • Evaluación de riesgos operativos en continuidad del negocio.


Referencias

  • https://www.atlassian.com/incident-management/kpis/common-metrics
  • https://www.motadata.com/blog/incident-management-metrics/
  • https://www.cortex.io/post/your-guide-to-incident-response-metrics
  • https://www.youtube.com/watch?v=OSnBQraYlkA
  • https://www.splunk.com/en_us/blog/learn/failure-metrics.html
  • https://ntrs.nasa.gov/api/citations/20000099772/downloads/20000099772.pdf


0 comments:

Publicar un comentario