Service Continuity Management(Proceso)

Las principales actividades de la Gestión de la Continuidad del Servicio se resumen en:

  • Establecer las políticas y alcance de la ITSCM.
  • Evaluar el impacto en el negocio de una interrupción de los servicios TI.
  • Analizar y prever los riesgos a los que esta expuesto la infraestructura TI.
  • Establecer las estrategias de continuidad del servicio TI.
  • Adoptar medidas proactivas de prevención del riesgo.
  • Desarrollar los planes de contingencia.
  • Poner a prueba dichos planes.
  • Formar al personal sobre los procedimientos necesarios para la pronta recuperación del servicio.
  • Revisar periódicamente los planes para adaptarlos a las necesidades reales del negocio.

Política y Alcance

El primer paso necesario para desarrollar una Gestión de la Continuidad del Servicio coherente es establecer claramente sus objetivos generales, su alcance y el compromiso de la organización TI: su política.

La gestión de la empresa debe demostrar su implicación con el proceso desde un primer momento pues la implantación de la ITSCM puede resultar compleja y costosa sin la contrapartida de un retorno obvio a la inversión.

Es imprescindible establecer el alcance de la ITSCM en función de:

  • Los planes generales de Continuidad del Negocio.
  • Los servicios TI estratégicos.
  • Los estándares de calidad adoptados.
  • El histórico de interrupciones graves de los servicios TI.
  • Las expectativas de negocio.
  • La disponibilidad de recursos.

La Gestión de la Continuidad del Servicio está abocada al fracaso sino se destina una cantidad de recursos suficientes, tanto en el plano humano como de equipamiento (software y hardware). Su dimensión depende de su alcance y sería absurdo y contraproducente instaurar una política demasiado ambiciosa que no dispusiera de los recursos correspondientes.

Una importante parte del esfuerzo debe destinarse a la formación del personal. Éste debe interiorizar su papel en momentos de crisis y conocer perfectamente las tareas que se espera desempeñe: una emergencia no es el mejor momento para estudiar documentación y manuales.


Análisis de Impacto

Una correcta Gestión de la Continuidad del Servicio requiere en primer lugar determinar el impacto que una interrupción de los servicios TI pueden tener en el negocio.

En la actualidad casi todas las empresas, grandes y pequeñas, dependen en mayor o menor medida de los servicios informáticos, por lo que cabe esperar que un “apagón” de los servicios TI afecte a prácticamente todos los aspectos del negocio. Sin embargo, es evidente que hay servicios TI estratégicos de cuya continuidad puede depender la supervivencia del negocio y otros que “simplemente” aumentan la productividad de la fuerza comercial y de trabajo.

Cuanto mayor sea el impacto asociado a la interrupción de un determinado servicio mayor habrá de ser el esfuerzo realizado en actividades de prevención. En aquellos casos en que la “solución puede esperar” se puede optar exclusivamente por planes de recuperación.

Los servicios TI han de ser analizados por la ITSCM en función de diversos parámetros:

  • Consecuencias de la interrupción del servicio en el negocio:
    • Pérdida de rentabilidad.
    • Pérdida de cuota de mercado.
    • Mala imagen de marca.
    • Otros efectos secundarios.
  • Cuánto se puede esperar a restaurar el servicio sin que tenga un alto impacto en los procesos de negocio.
  • Compromisos adquiridos a través de los SLAs.

Dependiendo de estos factores se buscará un balance entre las actividades de prevención y recuperación teniendo en cuenta sus respectivos costes financieros.


Evaluación de Riesgos

Sin conocer cuales son los riesgos reales a los que se enfrenta la infraestructura TI es imposible realizar una política de prevención y recuperación ante desastre mínimamente eficaz.

La Gestión de la Continuidad del Servicio debe enumerar y evaluar, dependiendo de su probabilidad e impacto, los diferentes riesgos factores de riesgo. Para ello la ITSCM debe:

  • Conocer en profundidad la infraestructura TI y cuales son los elementos de configuración (CIs) involucrados en la prestación de cada servicio, especialmente los servicios TI críticos y estratégicos.
  • Analizar las posibles amenazas y estimar su probabilidad.
  • Detectar los puntos más vulnerables de la infraestructura TI.

Gracias a los resultados de este detallado análisis se dispondrá de información suficiente para proponer diferentes medidas de prevención y recuperación que se adapten a las necesidades reales del negocio.

La prevención frente a riesgos genéricos y poco probables puede ser muy cara y no estar siempre justificada, sin embargo, las medidas preventivas o de recuperación frente a riesgos específicos pueden resultar sencillas, de rápida implementación y relativamente baratas.

Por ejemplo, si el riesgo de perdida de alimentación eléctrica es elevado debido, por ejemplo, a la localización geográfica se puede optar por deslocalizar ciertos servicios TI a través de ISPs que dispongan de sistemas de generadores redundantes o adquirir generadores que proporcionen la energía mínima necesaria para alimentar los CIs de los que dependen los servicios más críticos, etcétera.


Estrategias

La continuidad de los servicios TI puede conseguirse bien mediante medidas preventivas, que eviten la interrupción de los servicios, o medidas reactivas, que recuperen unos niveles aceptables de servicio en el menor tiempo posible.

Es responsabilidad de la Gestión de la Continuidad del Servicio diseñar actividades de prevención y recuperación que ofrezcan las garantías necesarias a unos costes razonables.

Actividades preventivas

Las medidas preventivas requieren un detallado análisis previo de riesgos y vulnerabilidades. Algunos de ellos serán de carácter general: incendios, desastres naturales, etcétera, mientras que otros tendrán un carácter estrictamente informático: fallo de sistemas de almacenamiento, ataques de hackers, virus informáticos, etcétera.

La adecuada prevención de los riesgos de carácter general dependen de una estrecha colaboración con la Gestión de la Continuidad del Negocio (BCM) y requieren medidas que implican a la infraestructura “física” de la organización.

La prevención de riesgos y vulnerabilidades “lógicas” o de hardware requieren especial atención de la ITSCM. En este aspecto es esencial la estrecha colaboración con la Gestión de la Seguridad.

Los sistemas de protección habituales son los de “Fortaleza” que ofrecen protección perimetral a la infraestructura TI. Aunque imprescindibles no se hallan exentos de sus propias dificultades pues aumentan la complejidad de la infraestructura TI y pueden ser a su vez fuente de nuevas vulnerabilidades.

Actividades de recuperación

Tarde o temprano, por muy eficientes que seamos en nuestras actividades de prevención, será necesario poner en marcha procedimientos de recuperación.

En líneas generales existen tres opciones de recuperación del servicio:

  • “Cold standby”: que requiere un emplazamiento alternativo en el que podamos reproducir en pocos días nuestro entorno de producción y servicio. Esta opción es la adecuada si los planes de recuperación estiman que la organización puede mantener sus niveles de servicio durante este periodo sin el apoyo de la infraestructura TI.
  • “Warm standby”: que requiere un emplazamiento alternativo con sistemas activos diseñados para recuperar los servicios críticos en un plazo de entre 24 y 72 horas.
  • “Hot standby”: que requiere un emplazamiento alternativo con una replicación continua de datos y con todos los sistemas activos preparados para la inmediata sustitución de la estructura de producción. Ésta es evidentemente la opción mas costosa y debe emplearse sólo en el caso de que la interrupción del servicio TI tuviera inmediatas repercusiones comerciales.

Por supuesto, existe otra alternativa que consiste en hacer “poco o nada” y esperar que las aguas vuelvan naturalmente a su cauce: una alternativa poco recomendable para alguien que esté hojeando este curso sobre ITIL y del que suponemos que los servicios TI jugarán un papel importante en su organización Risa


Organización y Planificación

Una vez determinado el alcance de la ITSCM, analizados los riesgos y vulnerabilidades y definidas unas estrategias de prevención y recuperación es necesario asignar y organizar los recursos necesarios. Con ese objetivo la Gestión de la Continuidad del Servicio debe elaborar una serie de documentos entre los que se incluyen:

  • Plan de prevención de riesgos.
  • Plan de gestión de emergencias.
  • Plan de recuperación.
Plan de prevención de riesgos

Cuyo objetivo principal es el de evitar o minimizar el impacto de un desastre en la infraestructura TI.

Entre las medidas habituales se encuentran:

  • Almacenamiento de datos distribuidos.
  • Sistemas de alimentación eléctrica de soporte.
  • Políticas de back-ups.
  • Duplicación de sistemas críticos.
  • Sistemas de seguridad pasivos.
Plan de gestión de emergencias

Las crisis suelen provocar “reacciones de pánico” que pueden ser contraproducentes y a veces incluso más dañinas que las provocadas por el incidente que las causo. Por ello es imprescindible que en caso de situación de emergencia estén claramente determinadas las responsabilidades y funciones del personal así como los protocolos de acción correspondientes.

En principio los planes de gestión de emergencias deben tomar en cuenta aspectos tales como:

  • Evaluación del impacto de la contingencia en la infraestructura TI.
  • Asignación de funciones de emergencia al personal de servicio TI.
  • Comunicación a los usuarios y clientes de una grave interrupción o degradación del servicio.
  • Procedimientos de contacto y colaboración con los proveedores involucrados.
  • Protocolos para la puesta en marcha del plan de recuperación correspondiente.
Plan de recuperación

Cuando la interrupción del servicio es inevitable llego el momento de poner en marcha los procedimientos de recuperación.

El plan de recuperación debe incluir todo lo necesario para:

  • Reorganizar al personal involucrado.
  • Reestablecer los sistemas de hardware y software necesarios.
  • Recuperar los datos y reiniciar el servicio TI.

Los procedimientos de recuperación pueden depender de la importancia de la contingencia y de la opción de recuperación asociada (“cold o hot stand-by”), pero en general involucran:

  • Asignación de personal y recursos.
  • Instalaciones y hardware alternativos.
  • Planes de seguridad que garanticen la integridad de los datos.
  • Procedimientos de recuperación de datos.
  • Contratos de colaboración con otras organizaciones.
  • Protocolos de comunicación con los clientes.

Cuando se pone en marcha un plan de recuperación no hay espacio para la improvisación, cualquier decisión puede tener graves consecuencias tanto en la percepción que de nosotros tengan nuestros clientes como en los costes asociados al proceso.


Supervisión

Una vez establecidas las políticas, estrategias y planes de prevención y recuperación es indispensable que estos no queden en papel mojado y que la organización TI esté preparada para su correcta implementación.

Ello depende de dos factores clave: la correcta formación del personal involucrado y la continua monitorización y evaluación de los planes para su adecuación a las necesidades reales del negocio.

Formación

Es inútil disponer de unos completos planes de prevención y recuperación si las personas que eventualmente deben llevarlos a cabo no están familiarizados con los mismos.

Es indispensable que la ITSCM:

  • De a conocer al conjunto de la organización TI los planes de prevención y recuperación.
  • Ofrezca formación específica sobre los diferentes procedimientos de prevención y recuperación.
  • Realice periódicamente simulacros para diferentes tipos de desastres con el fin de asegurar la capacitación del personal involucrado.
  • Facilite el acceso permanente a toda la información necesaria, por ejemplo, a través de la Intranet o portal B2E de la empresa.
Actualización y auditorías

Tanto las políticas, estrategias y planes han de ser actualizados periódicamente para asegurar que responden a los requisitos de la organización en su conjunto.

Cualquier cambio en la infraestructura TI o en los planes de negocio puede requerir de una profunda revisión de los planes en vigor y una consecuente auditoría que evalúe su adecuación a la nueva situación.

En ocasiones en que el dinamismo del negocio y los servicios TI lo haga recomendable, estos procesos de actualización y auditoria pueden establecerse de forma periódica.

La Gestión de Cambios juega un papel esencial en asegurar que los planes de recuperación y prevención estén actualizados manteniendo informada a la ITSCM de los cambios realizados o previstos.


Control del Proceso

La Gestión de la Continuidad del Servicio debe elaborar periódicamente informes sobre su gestión que incluyan información relevante para el resto de la organización TI.

Estos informes deben incluir:

  • Análisis sobre nuevos riesgos y evaluación de su impacto.
  • Evaluación de los simulacros de desastre realizados.
  • Actividades de prevención y recuperación realizadas.
  • Costes asociados a los planes de prevención y recuperación.
  • Preparación y capacitación del personal TI respecto a los planes y procedimientos de prevención y recuperación.

Uno de los factores clave para el éxito de la Gestión de la Continuidad del Servicio es mantener la “concentración”. Tras largos periodos en los que la prevención o, simple y llanamente, la suerte han impedido la existencia de graves interrupciones del servicio se puede caer en un relajamiento que puede acarrear graves consecuencias.

Por esto es imprescindible llevar controles rigurosos que impidan que la inversión y compromiso inicial se diluyan y la ITSCM no esté a la altura de la situación cuando sus servicios sean vitales para evitar que “un desastre se convierta en una catástrofe”.

Pero si el control del proceso es importante en condiciones normales éste se vuelve crítico durante las situaciones de crisis. La ITSCM debe garantizar:

  • La puesta en marcha de los planes preestablecidos.
  • La supervisión de los mismos.
  • La coordinación con la Gestión de Continuidad del Negocio.
  • La asignación de recursos necesarios.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s