Recordando unas viejas épocas cuando viví de la atención de incidentes (TI y Cyber), están algunas métricas claves para identificar diferentes tipos tiempos.
Por que métricas en la gestión de incidentes ?
Para identificar en donde se va el tiempo, recurso finito y muy valioso, hay que medir y clasificar para hallar en donde se encuentra el mayor consumo del mismo y poder optimizarlo (o corregir). Ademas nos permite comparar que tan bien (o desviados estamos) respecto a algo (que se defina y sea comparable). Para ello, se debe saber exactamente que queremos medir (y como medir)
Métricas Claves
|
Métrica |
¿Qué mide? |
¿En qué se enfoca? |
Importancia |
Área habitual |
Ejemplo |
Cálculo |
|
MTTR |
Tiempo promedio desde que ocurre una falla hasta que se repara. |
Reparación técnica. |
Minimiza el tiempo fuera de servicio. |
Infraestructura TI,
ingeniería, mantenimiento. |
Falla a las 10:00, reparado a las 10:30 → 30 min. |
Tiempo total de reparación / Número de reparaciones |
|
MTTR |
Tiempo promedio para restaurar el servicio tras un incidente. |
Recuperar
operación del sistema. |
Asegura continuidad del negocio. |
TI, ciberseguridad, operaciones. |
Caída a las 10:00, recuperación 10:45 → 45 min. |
Tiempo total desde la falla hasta la restauración / Número de
incidentes |
|
MTTR |
Tiempo promedio entre detección y el inicio de acciones de respuesta. |
Reacción activa. |
Reduce impacto del
incidente. |
SOC, NOC, TI. |
Ataque detectado
10:00, mitigación 10:10 → 10 min. |
Tiempo desde detección hasta inicio de respuesta / Número de
incidentes |
|
MTTR |
Tiempo para resolver completamente un incidente (no solo restaurar). |
Resolución
definitiva. |
Previene recurrencias. |
Gestión de incidentes, soporte técnico. |
Incidente 10:00, resuelto 11:00
→ 1 h. |
Tiempo desde que ocurre el incidente hasta su resolución / Número de
incidentes |
|
MTBF |
Tiempo promedio entre fallas sucesivas. |
Confiabilidad. |
Evalúa robustez del
sistema. |
Electrónica,
ingeniería, sistemas críticos. |
Falla a las 10:00, otra a las 14:00 → 4 h. |
Tiempo total de operación / Número de fallas |
|
MTTF |
Tiempo medio hasta el primer fallo de un componente. |
Durabilidad
sin mantenimiento. |
Útil en diseño y calidad. |
Hardware, electrónica. |
Equipo dura 5000 h → MTTF = 5000 h. |
Tiempo total de operación hasta el primer fallo / Número de
dispositivos |
|
MTTA |
Tiempo desde la detección hasta que alguien reconoce el incidente. |
Atención inicial. |
Mide eficiencia del
equipo. |
SOC, helpdesk,
operaciones. |
Alerta a las 10:00, reconocida 10:05 → 5 min. |
Tiempo desde detección hasta reconocimiento / Número de alertas |
|
Uptime |
Porcentaje de tiempo activo del sistema. |
Disponibilidad. |
Mide cumplimiento de SLA. |
Infraestructura, servicios en la nube. |
99.9% uptime mensual. |
((Tiempo total - tiempo de inactividad) / tiempo total) × 100 |
|
Downtime |
Tiempo total fuera de servicio. |
Indisponibilidad. |
Afecta operaciones y
experiencia. |
TI, operaciones. |
2 h de caída en un mes. |
Suma de todos los periodos de inactividad |
|
MTTD |
Tiempo entre el inicio del incidente y su detección. |
Visibilidad. |
Permite respuestas tempranas. |
Ciberseguridad, monitoreo. |
Ataque a las 10:00, detectado 10:20 → 20 min. |
Tiempo desde el inicio del incidente hasta su detección / Número de
incidentes |
|
MTTI |
Tiempo promedio en investigar un incidente. |
Análisis forense o técnico. |
Entiende qué ocurrió y por qué. |
Ciberseguridad,
soporte. |
Detectado 10:00,
investigación 11:00 → 1 h. |
Tiempo total de investigación / Número de incidentes |
|
MTRS |
Tiempo promedio para restaurar un servicio tras una caída. |
Recuperación
de servicios. |
Cumple SLA. |
TI, operaciones. |
Caída a las 10:00, servicio vuelve 10:40 → 40 min. |
Tiempo total para restaurar servicio / Número de incidentes |
|
MTBSI |
Tiempo promedio entre incidentes del sistema. |
Estabilidad. |
Mide frecuencia de
incidentes. |
Gestión de incidentes,
TI. |
1 incidente cada 72 h. |
Tiempo total entre incidentes / Número de incidentes |
|
Failure Rate |
Fallas por unidad de tiempo. |
Frecuencia
de errores. |
Evalúa fiabilidad. |
Calidad, ingeniería. |
5 fallas en 1000 h → 0.005 fallas/h. |
Número de fallas / Tiempo total de operación |
RAM: reliability, availability & maintainability
- Fiabilidad (Reliability)
Es la probabilidad de que un sistema realice consistentemente su función prevista sin fallar durante un período de tiempo. - Significa que los sistemas de TI funcionan de manera consistente y no se averían inesperadamente.
- Se mide y predice con métricas de fallo como MTBF, MTTF y tasas de fallo.
- Ejemplo:
Un sistema que funciona 1000 horas sin fallas es más confiable que uno que falla cada 100 horas.
- Disponibilidad (Availability)
Es la probabilidad de que un sistema esté funcionando como se diseñó cuando se necesita usar. Es una función de la fiabilidad y la mantenibilidad.
- Cálculo:
- MTBF / (MTBF + MTTR)
- Uptime / Tiempo total
- Ejemplo:
Un servidor con 99.99% de disponibilidad solo estaría caído unos 5 minutos al mes.
- Mantenibilidad (Maintainability): Describe la facilidad y velocidad con la que un sistema y sus componentes pueden ser reparados o reemplazados y luego restaurados a plena operación después de un fallo.
- Se mide, entre otras cosas, con el MTTR; un MTTR bajo indica alta mantenibilidad.
- Ejemplo:
Un sistema modular y con buena documentación se repara más rápido que uno complejo y mal diseñado.
🧩 Interrelación entre RAM
Estas tres dimensiones no son independientes. Cambios en una pueden afectar a las otras:- Mayor reliability reduce la necesidad de mantenimiento, lo que mejora la availability.
- Mayor maintainability reduce el downtime, lo que también mejora la availability.
- Mala maintainability puede esconder problemas de baja reliability.
📌 Aplicaciones del análisis RAM
- Diseño de sistemas críticos (aeroespacial, ferroviario, militar).
- Gestión de activos físicos (plantas industriales, telecomunicaciones).
- TI y ciberseguridad, en SLAs, centros de datos y servicios cloud.
- Evaluación de riesgos operativos en continuidad del negocio.
Referencias
- https://www.atlassian.com/incident-management/kpis/common-metrics
- https://www.motadata.com/blog/incident-management-metrics/
- https://www.cortex.io/post/your-guide-to-incident-response-metrics
- https://www.youtube.com/watch?v=OSnBQraYlkA
- https://www.splunk.com/en_us/blog/learn/failure-metrics.html
- https://ntrs.nasa.gov/api/citations/20000099772/downloads/20000099772.pdf



0 comments:
Publicar un comentario