Availability Management (Proceso)

Entre las actividades que la Gestión de la Disponibilidad se encuentran:

  • Determinar cuales son los requisitos de disponibilidad reales del negocio.
  • Desarrollar un plan de disponibilidad donde se estimen las necesidades de disponibilidad futura a corto y medio plazo.
  • Mantenimiento del servicio en operación y recuperación del mismo en caso de fallo.
  • Realizar diagnósticos periódicos sobre la disponibilidad de los sistemas y servicios.
  • Evaluar la capacidad de servicio de los proveedores internos y externos.
  • Monitorizar la disponibilidad de los servicios TI.
  • Elaborar informes de seguimiento con la información recopilada sobre disponibilidad, fiabilidad, matenibilidad y cumplimiento deOLAs y UCs.
  • Evaluar el impacto de las políticas de seguridad en la disponibilidad.
  • Asesorar a la Gestión del Cambio sobre el posible impacto de un cambio en la disponibilidad.

Requisitos de Disponibilidad

Es indispensable cuantificar los requisitos de disponibilidad para la correcta elaboración de losSLAs.

La disponibilidad propuesta debe encontrase en línea tanto con los necesidades reales del negocio como con las posibilidades de la organización TI.

Aunque en principio todos los clientes estarán de acuerdo con unas elevadas cotas de disponibilidad es importante hacerles ver que una alta disponibilidad puede generar unos costes injustificados dadas sus necesidades reales. Quizá unas pocas horas sin un determinado servicio pueden representar poco más allá de una pequeña inconveniencia mientras que la certeza de un servicio prácticamente continuo y sin interrupciones puede requerir la replicación de sistemas u otras medidas igualmente costosas que no van a tener una repercusión real en la rentabilidad del negocio.

Para llevar a cabo eficientemente está tarea es necesario que la Gestión de la Disponibilidad:

  • Identifique las actividades clave del negocio.
  • Cuantifique los intervalos razonables de interrupción de los diferentes servicios dependiendo de sus respectivos impactos.
  • Establezca los protocolos de mantenimiento y revisión de los servicios TI.
  • Determine las franjas horaria de disponibilidad de los servicios TI (24/7, 12/5, …).

Planificación

La correcta planificación de la disponibilidad permite establecer unos niveles de disponibilidad adecuados tanto en lo que respecta a las necesidades reales del negocio como a las posibilidades de la organización TI.

El documento que debe recoger los objetivos de disponibilidad presentes y futuros y que medidas son necesarias para su cumplimiento es el Plan de Disponibilidad.

Este plan debe recoger:

  • La situación actual de disponibilidad de los servicios TI. Obviamente esta información debe ser actualizada periódicamente.
  • Herramientas para la monitorización de la disponibilidad.
  • Métodos y técnicas de análisis a utilizar.
  • Definiciones relevantes y precisas de las métricas a utilizar.
  • Planes de mejora de la disponibilidad.
  • Expectativas futuras de disponibilidad.

Es imprescindible que este plan proponga los cambios necesarios para que se cumplan los estándares previstos y colabore con la Gestión de Cambios y la Gestión de Versiones en su implementación (en caso de ser aprobados, claro está).

Para que este plan sea realista debe contar con la colaboración de los otros procesos TI involucrados.

Diseño para la Disponibilidad

Es crucial para una correcta Gestión de la Disponibilidad participar desde el inicio en el desarrollo de los nuevos servicios TI de forma que estos cumplan los estándares plasmados en el Plan de Disponibilidad.

Un diferente nivel de disponibilidad puede requerir cambios drásticos en los recursos utilizados o en las actividades necesarias para suministrar un determinado servicio TI. Si éste se diseña sin tener en cuenta futuras necesidades de disponibilidad puede ser necesario un completo rediseño al cabo de poco tiempo, incurriendo en costes adicionales innecesarios.


Mantenimiento y Seguridad

Aunque hayamos realizado un correcto diseño de los servicios según el Plan de Disponibilidad y se hayan tomado todas las medidas preventivas necesarias, tarde o temprano, nos habremos de enfrentar a interrupciones del servicio.

En esos casos es necesario recuperar el servicio lo antes posible para que no tenga un efecto indeseado sobre los niveles de disponibilidad acordados.

Aunque la responsabilidad de restaurar el servicio corresponde a la Gestión de Incidentes y las actividades de recuperación han de ser coordinadas por el Service Desk, la Gestión de la Disponibilidad debe prestar su asesoramiento mediante planes de recuperación que tengan en cuenta:

  • Las necesidades de disponibilidad del negocio.
  • Las implicaciones del incidente en la infraestructura TI y los procesos necesarios para restaurar el servicio.
Gestión de las Interrupciones de Mantenimiento

Independientemente de las interrupciones del servicio causadas por incidencias es habitualmente necesario interrumpir el servicio para realizar labores de mantenimiento y/o actualización.

Estas interrupciones programadas pueden afectar a la disponibilidad del servicio y por lo tanto han de ser cuidadosamente planificadas para minimizar su impacto.

En aquellos casos en que los servicios no son 24/7 es obvio que, siempre que ello sea posible, deben aprovecharse las franjas horarias de inactividad para realizar las tareas que implican una degradación o interrupción del servicio.

Si el servicio es 24/7 y la interrupción es necesaria se debe:

  • Consultar con el cliente en que franja horaria la interrupción del servicio afectará menos a sus actividades de negocio.
  • Informar con la antelación suficiente a todos los agentes implicados.
  • Incorporar dicha información a los SLAs.
Seguridad

Uno de los aspectos esenciales para obtener altos niveles de fiabilidad y disponibilidad es una correcta Gestión de la Seguridad.

Los aspectos relativos a la seguridad deben ser tomados en cuenta en todas las etapas del proceso.

Es tan importante determinar cuándo el servicio estará disponible como el “quién y cómo” va a utilizarlo. La disponibilidad y seguridad son interdependientes y cualquier fallo en una de ellas afectará gravemente a la otra.


Monitorización de la Disponibilidad

La monitorización de la disponibilidad del servicio y la elaboración de los informes correspondientes son dos de las principales actividades de la Gestión de la Disponibilidad.

Desde el momento de la interrupción del servicio hasta su restitución o “tiempo de parada” el incidente pasa por distintas fases que deben ser individualizadamente analizadas:

  • Tiempo de detección: es el tiempo que transcurre desde que ocurre el fallo hasta que la organización TI tiene constancia del mismo.
  • Tiempo de respuesta: es el tiempo que transcurre desde la detección del problema hasta que se realiza un registro y diagnóstico del incidente.
  • Tiempo de reparación/recuperación: periodo de tiempo utilizado para reparar el fallo o encontrar un “workaround” o solución temporal al mismo y devolver el sistema a la situación anterior a la interrupción del servicio.

Es importante determinar métricas que permitan medir con precisión las diferentes fases del ciclo de vida de la interrupción del servicio. El cliente debe conocer estas métricas y dar su conformidad a las mismas para evitar malentendidos. En algunos casos es difícil determinar si el sistema está “caído o en funcionamiento” y la interpretación puede diferir entre proveedores y clientes, por lo tanto, estás métricas deben de poder expresarse en términos que el cliente pueda entender.

Algunos de los parámetros que suele utilizar la Gestión de la Disponibilidad y que debe poner a disposición del cliente en los informes de disponibilidad correspondientes incluyen:

  • Tiempo Medio de Parada (Downtime) : que es el tiempo promedio de duración de una interrupción de servicio, e incluye el tiempo de detección, respuesta y resolución.
  • Tiempo Medio entre Fallos (Uptime): es el tiempo medio durante el cual el servicio esta disponible sin interrupciones.
  • Tiempo Medio entre Incidentes: es el tiempo medio transcurrido entre incidentes que es igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.

Métodos y Técnicas

Aunque llevamos hablando ya un buen rato de disponibilidad aún no hemos aportado un método para cuantificarla.

Es habitual definir la disponibilidad en tanto por ciento de la siguiente manera:

donde:

ASTse corresponde con el tiempo acordado de servicio,DT es el tiempo de interrupción del servicio durante las franjas horarias de disponibilidad acordadas.

Por ejemplo, si el servicio es 24/7 y en el último mes el sistema ha estado caído durante 4 horas por tareas de mantenimiento la disponibilidad real del servicio fue:

La Gestión de la Disponibilidad tiene a su disposición un buen número de métodos y técnicas que le permiten determinar que factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever que tipo de recursos se deben asignar para las labores de prevención, mantenimiento y recuperación, así como elaborar planes de mejora a partir de dichos análisis.

Entre dichas técnicas se cuentan:

CFIA

Que son las siglas de Component Failure Impact Analysis (Análisis del Impacto de Fallo de Componentes).

Mediante esté metodo se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuración involucrado. Es evidente que este método requiere una CMDB correctamente actualizada.

FTA

Que son las siglas de Failure Tree Analysis (Análisis del Árbol de Fallos).

Su objetivo es estudiar como se “propagan” los fallos a traves de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.

CRAMM

Que son las siglas de CCTA Risk Analysis and Management Method (Método de Gestión y Análisis de Riesgos de la CCTA).

Su objetivo es identificar los riesgos y vulnerabilidades a los que se haya expuesta la infraestructura TI con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rápidamente el servicio en caso de interrupción del mismo.

SOA

Que son las siglas de Service Outage Analysis (Análisis de Interrupción del Servicio).

Ésta técnica tiene como objetivo analizar las causas de los fallos detectados y proponer soluciones a los mismos.

Se diferencia de los anteriores métodos en que realiza el análisis desde el punto de vista del cliente haciendo especial énfasis en aspectos no exclusivamente técnicos ligados directamente a la infraestructura TI.


Control del Proceso

La Gestión de la Disponibilidad debe elaborar periódicamente informes sobre su gestión que incluyan información relevante tanto para los clientes como para el resto de la organización TI.

Estos informes deben incluir:

  • Técnicas y métodos utilizados para la prevención y el análisis de fallos.
  • Información estadística sobre:
    • Tiempos de detección y respuesta a los fallos.
    • Tiempos de reparación y recuperación del servicio.
    • Tiempo medio de servicio entre fallos.
  • Disponibilidad real de los diferentes servicios.
  • Cumplimiento de los SLAs en todo lo referente a la disponibilidad y fiabilidad del servicio.
  • Cumplimiento de los OLAs y UCs en todo lo referente a la capacidad de servicio prestada por los proveedores internos y externos.

Para que toda esta información sea fácil y correctamente analizada es imprescindible el establecimiento de métricas precisas que permitan determinar de forma inequívoca parámetros tales como tiempos de parada y funcionamiento. Por ejemplo, en el caso de un servicio online de comercio electrónico se puede considerar que tiempos de respuesta superiores a 10 segundos son equivalentes a que el sistema esta caído, aunque estrictamente hablando el sistema termine respondiendo.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s