Availability Management (Proceso)

Entre las actividades que la Gestión de la Disponibilidad se encuentran:

  • Determinar cuales son los requisitos de disponibilidad reales del negocio.
  • Desarrollar un plan de disponibilidad donde se estimen las necesidades de disponibilidad futura a corto y medio plazo.
  • Mantenimiento del servicio en operación y recuperación del mismo en caso de fallo.
  • Realizar diagnósticos periódicos sobre la disponibilidad de los sistemas y servicios.
  • Evaluar la capacidad de servicio de los proveedores internos y externos.
  • Monitorizar la disponibilidad de los servicios TI.
  • Elaborar informes de seguimiento con la información recopilada sobre disponibilidad, fiabilidad, matenibilidad y cumplimiento deOLAs y UCs.
  • Evaluar el impacto de las políticas de seguridad en la disponibilidad.
  • Asesorar a la Gestión del Cambio sobre el posible impacto de un cambio en la disponibilidad.

Requisitos de Disponibilidad

Es indispensable cuantificar los requisitos de disponibilidad para la correcta elaboración de losSLAs.

La disponibilidad propuesta debe encontrase en línea tanto con los necesidades reales del negocio como con las posibilidades de la organización TI.

Aunque en principio todos los clientes estarán de acuerdo con unas elevadas cotas de disponibilidad es importante hacerles ver que una alta disponibilidad puede generar unos costes injustificados dadas sus necesidades reales. Quizá unas pocas horas sin un determinado servicio pueden representar poco más allá de una pequeña inconveniencia mientras que la certeza de un servicio prácticamente continuo y sin interrupciones puede requerir la replicación de sistemas u otras medidas igualmente costosas que no van a tener una repercusión real en la rentabilidad del negocio.

Para llevar a cabo eficientemente está tarea es necesario que la Gestión de la Disponibilidad:

  • Identifique las actividades clave del negocio.
  • Cuantifique los intervalos razonables de interrupción de los diferentes servicios dependiendo de sus respectivos impactos.
  • Establezca los protocolos de mantenimiento y revisión de los servicios TI.
  • Determine las franjas horaria de disponibilidad de los servicios TI (24/7, 12/5, …).

Planificación

La correcta planificación de la disponibilidad permite establecer unos niveles de disponibilidad adecuados tanto en lo que respecta a las necesidades reales del negocio como a las posibilidades de la organización TI.

El documento que debe recoger los objetivos de disponibilidad presentes y futuros y que medidas son necesarias para su cumplimiento es el Plan de Disponibilidad.

Este plan debe recoger:

  • La situación actual de disponibilidad de los servicios TI. Obviamente esta información debe ser actualizada periódicamente.
  • Herramientas para la monitorización de la disponibilidad.
  • Métodos y técnicas de análisis a utilizar.
  • Definiciones relevantes y precisas de las métricas a utilizar.
  • Planes de mejora de la disponibilidad.
  • Expectativas futuras de disponibilidad.

Es imprescindible que este plan proponga los cambios necesarios para que se cumplan los estándares previstos y colabore con la Gestión de Cambios y la Gestión de Versiones en su implementación (en caso de ser aprobados, claro está).

Para que este plan sea realista debe contar con la colaboración de los otros procesos TI involucrados.

Diseño para la Disponibilidad

Es crucial para una correcta Gestión de la Disponibilidad participar desde el inicio en el desarrollo de los nuevos servicios TI de forma que estos cumplan los estándares plasmados en el Plan de Disponibilidad.

Un diferente nivel de disponibilidad puede requerir cambios drásticos en los recursos utilizados o en las actividades necesarias para suministrar un determinado servicio TI. Si éste se diseña sin tener en cuenta futuras necesidades de disponibilidad puede ser necesario un completo rediseño al cabo de poco tiempo, incurriendo en costes adicionales innecesarios.


Mantenimiento y Seguridad

Aunque hayamos realizado un correcto diseño de los servicios según el Plan de Disponibilidad y se hayan tomado todas las medidas preventivas necesarias, tarde o temprano, nos habremos de enfrentar a interrupciones del servicio.

En esos casos es necesario recuperar el servicio lo antes posible para que no tenga un efecto indeseado sobre los niveles de disponibilidad acordados.

Aunque la responsabilidad de restaurar el servicio corresponde a la Gestión de Incidentes y las actividades de recuperación han de ser coordinadas por el Service Desk, la Gestión de la Disponibilidad debe prestar su asesoramiento mediante planes de recuperación que tengan en cuenta:

  • Las necesidades de disponibilidad del negocio.
  • Las implicaciones del incidente en la infraestructura TI y los procesos necesarios para restaurar el servicio.
Gestión de las Interrupciones de Mantenimiento

Independientemente de las interrupciones del servicio causadas por incidencias es habitualmente necesario interrumpir el servicio para realizar labores de mantenimiento y/o actualización.

Estas interrupciones programadas pueden afectar a la disponibilidad del servicio y por lo tanto han de ser cuidadosamente planificadas para minimizar su impacto.

En aquellos casos en que los servicios no son 24/7 es obvio que, siempre que ello sea posible, deben aprovecharse las franjas horarias de inactividad para realizar las tareas que implican una degradación o interrupción del servicio.

Si el servicio es 24/7 y la interrupción es necesaria se debe:

  • Consultar con el cliente en que franja horaria la interrupción del servicio afectará menos a sus actividades de negocio.
  • Informar con la antelación suficiente a todos los agentes implicados.
  • Incorporar dicha información a los SLAs.
Seguridad

Uno de los aspectos esenciales para obtener altos niveles de fiabilidad y disponibilidad es una correcta Gestión de la Seguridad.

Los aspectos relativos a la seguridad deben ser tomados en cuenta en todas las etapas del proceso.

Es tan importante determinar cuándo el servicio estará disponible como el “quién y cómo” va a utilizarlo. La disponibilidad y seguridad son interdependientes y cualquier fallo en una de ellas afectará gravemente a la otra.


Monitorización de la Disponibilidad

La monitorización de la disponibilidad del servicio y la elaboración de los informes correspondientes son dos de las principales actividades de la Gestión de la Disponibilidad.

Desde el momento de la interrupción del servicio hasta su restitución o “tiempo de parada” el incidente pasa por distintas fases que deben ser individualizadamente analizadas:

  • Tiempo de detección: es el tiempo que transcurre desde que ocurre el fallo hasta que la organización TI tiene constancia del mismo.
  • Tiempo de respuesta: es el tiempo que transcurre desde la detección del problema hasta que se realiza un registro y diagnóstico del incidente.
  • Tiempo de reparación/recuperación: periodo de tiempo utilizado para reparar el fallo o encontrar un “workaround” o solución temporal al mismo y devolver el sistema a la situación anterior a la interrupción del servicio.

Es importante determinar métricas que permitan medir con precisión las diferentes fases del ciclo de vida de la interrupción del servicio. El cliente debe conocer estas métricas y dar su conformidad a las mismas para evitar malentendidos. En algunos casos es difícil determinar si el sistema está “caído o en funcionamiento” y la interpretación puede diferir entre proveedores y clientes, por lo tanto, estás métricas deben de poder expresarse en términos que el cliente pueda entender.

Algunos de los parámetros que suele utilizar la Gestión de la Disponibilidad y que debe poner a disposición del cliente en los informes de disponibilidad correspondientes incluyen:

  • Tiempo Medio de Parada (Downtime) : que es el tiempo promedio de duración de una interrupción de servicio, e incluye el tiempo de detección, respuesta y resolución.
  • Tiempo Medio entre Fallos (Uptime): es el tiempo medio durante el cual el servicio esta disponible sin interrupciones.
  • Tiempo Medio entre Incidentes: es el tiempo medio transcurrido entre incidentes que es igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.

Métodos y Técnicas

Aunque llevamos hablando ya un buen rato de disponibilidad aún no hemos aportado un método para cuantificarla.

Es habitual definir la disponibilidad en tanto por ciento de la siguiente manera:

donde:

ASTse corresponde con el tiempo acordado de servicio,DT es el tiempo de interrupción del servicio durante las franjas horarias de disponibilidad acordadas.

Por ejemplo, si el servicio es 24/7 y en el último mes el sistema ha estado caído durante 4 horas por tareas de mantenimiento la disponibilidad real del servicio fue:

La Gestión de la Disponibilidad tiene a su disposición un buen número de métodos y técnicas que le permiten determinar que factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever que tipo de recursos se deben asignar para las labores de prevención, mantenimiento y recuperación, así como elaborar planes de mejora a partir de dichos análisis.

Entre dichas técnicas se cuentan:

CFIA

Que son las siglas de Component Failure Impact Analysis (Análisis del Impacto de Fallo de Componentes).

Mediante esté metodo se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuración involucrado. Es evidente que este método requiere una CMDB correctamente actualizada.

FTA

Que son las siglas de Failure Tree Analysis (Análisis del Árbol de Fallos).

Su objetivo es estudiar como se “propagan” los fallos a traves de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.

CRAMM

Que son las siglas de CCTA Risk Analysis and Management Method (Método de Gestión y Análisis de Riesgos de la CCTA).

Su objetivo es identificar los riesgos y vulnerabilidades a los que se haya expuesta la infraestructura TI con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rápidamente el servicio en caso de interrupción del mismo.

SOA

Que son las siglas de Service Outage Analysis (Análisis de Interrupción del Servicio).

Ésta técnica tiene como objetivo analizar las causas de los fallos detectados y proponer soluciones a los mismos.

Se diferencia de los anteriores métodos en que realiza el análisis desde el punto de vista del cliente haciendo especial énfasis en aspectos no exclusivamente técnicos ligados directamente a la infraestructura TI.


Control del Proceso

La Gestión de la Disponibilidad debe elaborar periódicamente informes sobre su gestión que incluyan información relevante tanto para los clientes como para el resto de la organización TI.

Estos informes deben incluir:

  • Técnicas y métodos utilizados para la prevención y el análisis de fallos.
  • Información estadística sobre:
    • Tiempos de detección y respuesta a los fallos.
    • Tiempos de reparación y recuperación del servicio.
    • Tiempo medio de servicio entre fallos.
  • Disponibilidad real de los diferentes servicios.
  • Cumplimiento de los SLAs en todo lo referente a la disponibilidad y fiabilidad del servicio.
  • Cumplimiento de los OLAs y UCs en todo lo referente a la capacidad de servicio prestada por los proveedores internos y externos.

Para que toda esta información sea fácil y correctamente analizada es imprescindible el establecimiento de métricas precisas que permitan determinar de forma inequívoca parámetros tales como tiempos de parada y funcionamiento. Por ejemplo, en el caso de un servicio online de comercio electrónico se puede considerar que tiempos de respuesta superiores a 10 segundos son equivalentes a que el sistema esta caído, aunque estrictamente hablando el sistema termine respondiendo.

Availability Management (Objetivos)

El objetivo primordial de la Gestión de la Disponibilidad es asegurar que los servicios TI estén disponibles y funcionen correctamente siempre que los clientes y usuarios deseen hacer uso de ellos en el marco de los SLAs en vigor.

Las responsabilidades de la Gestión de la Disponibilidad incluyen:

  • Determinar los requisitos de disponibilidad en estrecha colaboración con los clientes.
  • Garantizar el nivel de disponibilidad establecido para los servicios TI.
  • Monitorizar la disponibilidad de los sistemas TI.
  • Proponer mejoras en la infraestructura y servicios TI con el objetivo de aumentar los niveles de disponibilidad.
  • Supervisar el cumplimiento de los OLAs y UCs acordados con proveedores internos y externos.

Los indicadores clave sobre los que se sustenta el proceso de Gestión de la Disponibilidad se resumen en:

  • Disponibilidad: porcentaje de tiempo sobre el total acordado en que los servicios TI han sido accesibles al usuario y han funcionado correctamente.
  • Fiabilidad: medida del tiempo durante el cual los servicios han funcionado correctamente de forma ininterrumpida.
  • Mantenibilidad: capacidad de mantener el servicio operativo y recuperarlo en caso de interrupción.
  • Capacidad de Servicio: determina la disponibilidad de los servicios internos y externos contratados y su adecuación a los OLAs y UCsen vigor. Cuando un servicio TI es subcontratado en su totalidad la disponibilidad y la capacidad de servicio son términos equivalentes.

La disponibilidad depende del correcto diseño de los servicios TI, la fiabilidad de los CIs involucrados, su correcto mantenimiento y la calidad de los servicios internos y externos acordados.

Los principales beneficios de una correcta Gestión de la Disponibilidad son:

  • Cumplimiento de los niveles de disponibilidad acordados.
  • Se reducen los costes asociados a un alto nivel de disponibilidad.
  • El cliente percibe una mayor calidad de servicio.
  • Se aumentan progresivamente los niveles de disponibilidad.
  • Se reduce el número de incidentes.

Las principales dificultades con las que topa la Gestión de la Disponibilidad son:

  • No se monitoriza correctamente la disponibilidad real del servicio.
  • No existe compromiso con el proceso dentro de la organización TI.
  • No se dispone de las herramientas de software y personal adecuado.
  • Los objetivos de disponibilidad no están alineados con las necesidades del cliente.
  • Falta de coordinación con los otros procesos.
  • Los proveedores internos y externos no reconocen la autoridad del Gestor de la Disponibilidad por falta de apoyo de la dirección.