Un Estudio de Caso de una Institución Financiera Importante

Cómo consolidar la gestión de infraestructura de TI ante un crecimiento rápido y altos requisitos de disponibilidad

Acerca del Cliente

Una importante organización bancaria en la región sudamericana, que ocupa una posición de liderazgo en el sector financiero, está persiguiendo una estrategia de crecimiento agresiva a través de fusiones y adquisiciones.

El modelo de negocio de la empresa impone demandas extremadamente altas en la tolerancia a fallos y la disponibilidad de sus servicios de TI. Sus sistemas centrales deben funcionar en modo 24/7/365, ya que incluso una breve interrupción conduce a pérdidas financieras directas, interrupción de los procesos operativos y daños significativos a la reputación.

Estado Inicial Antes del Proyecto

Al inicio del proyecto, la infraestructura de TI del banco era un conglomerado complejo de sistemas dispares, moldeado por numerosas fusiones y crecimiento orgánico:

  • Su propio centro de datos central de Nivel III, que sirve como alojamiento principal para los sistemas bancarios críticos.
  • Tres centros de datos regionales que proporcionan redundancia y baja latencia para los clientes en ubicaciones clave.
  • Una red de más de 10 sucursales, distribuidas geográficamente por todo el país.

La gestión de este entorno estaba fragmentada. Tanto los centros de datos centrales como los regionales carecían de un sistema de gestión unificado; cada sitio utilizaba su propio conjunto de herramientas. Los procesos para la implementación, reinstalación de sistemas operativos y reemplazo de hardware requerían que los ingenieros estuvieran físicamente presentes, lo que tomaba desde varios días hasta semanas. Mantener los datos de inventario actualizados requería un esfuerzo manual significativo por parte del personal de ingeniería. La ausencia de un sistema de inventario centralizado significaba que el cliente no tenía una visión clara del estado de su hardware físico.

Resolver la mayoría de los incidentes relacionados con servidores requería enviar a un especialista técnico al sitio específico, ya que el personal de TI local carecía de la experiencia necesaria para manejar estos problemas de manera efectiva. El equipo en las sucursales, heredado de organizaciones adquiridas, variaba significativamente, lo que dificultaba que el cliente aplicara procedimientos de gestión estandarizados.

Los activos de TI de las organizaciones fusionadas se transfirieron con una documentación mínima. El proceso de integrarlos en la infraestructura común fue prolongado (6-9 meses) y requirió recursos sustanciales.

En consecuencia, la infraestructura del banco no era un paisaje unificado, sino más bien una colección de componentes débilmente acoplados. Gestionar este entorno conllevaba riesgos operativos significativos que amenazaban directamente las métricas comerciales clave.

Desafíos

La arquitectura de gestión de infraestructura de TI existente al inicio del proyecto generó una serie de problemas interconectados que impactaron directamente de forma negativa en las métricas de negocio del banco y complicaron su desarrollo futuro. El cliente enfrentó los siguientes desafíos.

Ineficiencia Operativa y Altos Costos de Soporte

Una parte significativa de los recursos del personal de TI se consumía en operaciones rutinarias: despliegue de equipos, resolución física de interrupciones en las sucursales y recopilación y actualización manual de datos de inventario. Esto desviaba a los especialistas de tareas estratégicas, como el desarrollo de servicios de TI.
La necesidad constante de enviar ingenieros para resolver problemas en los centros de datos regionales y las sucursales condujo a un aumento continuo de los gastos operativos (OPEX).

Riesgos Asociados con la Actividad de Fusiones y Adquisiciones

El período de 6 a 9 meses para integrar los activos de un banco adquirido era inaceptable desde un punto de vista competitivo. El banco incurría en pérdidas financieras y operativas debido a la incapacidad de realizar rápidamente los beneficios sinérgicos de la operación. Cada nueva adquisición agravaba el problema de la heterogeneidad y la falta de estandarización en el panorama de TI, aumentando el coste total de propiedad.

Amenazas a la Continuidad del Negocio 24/7

Restablecer las operaciones de una sucursal después de una falla del equipo podía, en algunos casos, llevar varias horas. Para el negocio, esto significaba pérdidas directas por operaciones detenidas, insatisfacción del cliente y daño reputacional. La falta de un conjunto de herramientas centralizado para una respuesta rápida a fallas de hardware en los centros de datos representaba una amenaza real para el cumplimiento de los SLA de disponibilidad de los sistemas bancarios críticos.

Falta de Gestión y Planificación Estratégica

Debido a datos obsoletos e incompletos sobre los activos de TI, era extremadamente difícil planificar la modernización, optimizar la asignación de recursos y construir un presupuesto justificado. El cliente carecía de una imagen única y confiable del estado de la infraestructura física, lo que complicaba los procesos de gestión de riesgos y toma de decisiones estratégicas.

Objetivos y Metas del Proyecto

Para superar los desafíos identificados y transformar la gestión de la infraestructura de TI, se estableció un conjunto de metas y objetivos específicos y medibles.

Metas del Proyecto:

  • Aumentar la eficiencia operativa y reducir los costos operativos de la infraestructura de TI.
  • Asegurar el cumplimiento de los requisitos de disponibilidad 24/7 para los servicios bancarios críticos.
  • Crear un marco de gestión unificado para toda la infraestructura física de TI del banco.
  • Estandarizar los procesos de gestión de equipos en todas las divisiones del banco.

Objetivos del Proyecto:

  • Implementar una única plataforma para gestionar equipos del centro de datos y sucursales, consolidando el 100% de los datos de los activos de TI.
  • Reducir el número de despachos de especialistas técnicos a las sucursales en un 75% dentro del primer año de operación de la solución.
  • Implementar monitoreo 24/7 del estado físico del equipo con integración en el sistema de gestión de incidentes existente.
  • Automatizar al menos el 80% de las operaciones rutinarias de gestión de equipos en la red de sucursales.
  • Reducir el tiempo medio de recuperación (MTTR) para fallas de hardware en sucursales a 30 minutos.
  • Acortar el plazo de integración de activos de TI de organizaciones adquiridas de 6-9 meses a 3 meses.
  • Habilitar la gestión remota del hardware del servidor.

Requisitos de la Solución

Se seleccionó la plataforma DCImanager como la solución central. Los criterios clave de selección fueron:

Su capacidad para gestionar hardware de diferentes fabricantes, lo cual era de vital importancia dadas las numerosas fusiones.

Capacidades para la automatización masiva de operaciones rutinarias.

Una interfaz única para gestionar equipos en diversas ubicaciones.

Una API flexible para una integración profunda con los sistemas existentes del banco.

Estas características específicas hicieron de DCImanager la base para construir la arquitectura de gestión objetivo que cumplía con todos los objetivos estratégicos del proyecto.

Implementación del Proyecto

Durante la fase preparatoria, los especialistas en TI del banco, con la participación activa de los expertos técnicos de ISPsystem, realizaron una evaluación detallada de la infraestructura existente. Para mitigar riesgos, se desplegaron bancos de pruebas para practicar todos los procedimientos de gestión de equipos, y se organizó capacitación para el personal del departamento de TI del banco.

El primer paso práctico fue la implementación de DCImanager en el centro de datos central. Allí, la plataforma automatizó la gestión de servidores físicos, equipos de red y otros dispositivos. El equipo de implementación configuró el monitoreo centralizado del estado del hardware y automatizó las operaciones rutinarias de gestión, aumentando significativamente la tolerancia a fallos de la infraestructura crítica.

La siguiente fase implicó escalar la solución a los centros de datos regionales y a la red de sucursales. Tras la implementación exitosa en el centro de datos central, el departamento de TI del banco desarrolló configuraciones estandarizadas para los equipos de las sucursales, permitiendo enfoques de gestión unificados en toda la infraestructura distribuida. La incorporación escalonada de las sucursales estuvo acompañada de pruebas rigurosas.

Se prestó especial atención a la integración de DCImanager con los sistemas existentes del banco. En la etapa final, se configuraron integraciones con el sistema SIEM para la recopilación de eventos de seguridad y con el Service Desk para automatizar los tickets relacionados con el hardware.

El proyecto se completó según lo programado, gracias a la preparación exhaustiva y al trabajo coordinado de los ingenieros de soporte de ISPsystem y los especialistas internos del cliente. La participación activa de los desarrolladores de la plataforma permitió la resolución eficiente de los problemas técnicos que surgieron y la adaptación del sistema a los requisitos específicos de la infraestructura bancaria.

Características Clave de las Soluciones Implementadas

Se integró DCImanager para automatizar la gestión de la infraestructura física, proporcionando las siguientes capacidades clave:

Soporte Multi-Vendor

DCImanager soporta hardware de la mayoría de los principales proveedores. La plataforma permite a los administradores gestionar equipos de diferentes proveedores a través de una única interfaz, incluyendo servidores de rack y blade, switches, PDUs y UPSs. Esto permitió al cliente consolidar la gestión de todo el hardware existente, incluido el equipo heredado de organizaciones adquiridas.

Monitoreo de la Salud de la Infraestructura Física

DCImanager monitorea continuamente la infraestructura física: servidores, equipos de red, PDUs y UPSs. Si el sistema detecta carga anormal u otros errores, los administradores reciben notificaciones inmediatas, permitiendo una resolución más rápida de problemas. Esto ayudó al banco a cambiar de una gestión reactiva a una proactiva, previniendo interrupciones antes de que pudieran afectar los procesos empresariales.

Gestión de Infraestructura Geográficamente Distribuida

DCImanager permite gestionar la infraestructura IT independientemente de su ubicación física. Esto permitió al cliente gestionar centralmente todas las más de 10 sucursales y centros de datos regionales desde un único punto, reduciendo drásticamente la necesidad de desplazamientos in situ y acelerando la resolución de problemas.

Gestión Automatizada del Inventario IT

El módulo de Contabilidad de Equipos rastrea el equipo tanto en la infraestructura como en el stock de almacén. Esto permitió al cliente realizar rápidamente auditorías tecnológicas de organizaciones adquiridas y planificar con precisión las actualizaciones de infraestructura.

Actualización del firmware BMC y BIOS/UEFI del servidor, Incluyendo desde un Repositorio Interno

DCImanager permite el almacenamiento centralizado del firmware BMC y BIOS/UEFI del servidor en un repositorio dedicado: una biblioteca de firmware. Esto aseguró la estandarización del firmware en toda la flota de equipos y redujo el riesgo de fallas asociadas con versiones obsoletas, especialmente en sucursales remotas.

Control de Cumplimiento de Configuración de Hardware

DCImanager permite controlar la consistencia de la configuración del servidor a través del módulo Perfiles de Servidor. Esto aseguró que la organización mantuviera el cumplimiento de los estándares de seguridad y configuración en toda la infraestructura distribuida, lo cual es particularmente crucial para cumplir con los requisitos regulatorios.

Resultados y Planes Futuros

La implementación de la plataforma DCImanager permitió al banco lograr resultados operativos y financieros significativos:

Aumento de la Eficiencia Operativa

Los desplazamientos de ingenieros a las sucursales se redujeron en un 82%, y el tiempo medio para restablecer las operaciones de las sucursales después de fallos de hardware se redujo a 30 minutos.

Garantizada Alta Fiabilidad de la Infraestructura IT

La disponibilidad general de los servicios IT críticos aumentó al 99.99%. El 87% de los incidentes de hardware en las sucursales ahora se resuelven de forma remota sin personal in situ, y el tiempo de integración de los activos IT después de una fusión se redujo de 6-9 meses a 3 meses.

Mejora de las Métricas Financieras

Los gastos operativos de soporte de infraestructura disminuyeron un 35%. Los ahorros anuales en costos de viaje de especialistas técnicos alcanzaron el 40%. La reducción del tiempo de inactividad de las sucursales generó 2 millones de dólares adicionales en ingresos anuales.