Imagina que el centro de datos que aloja tus aplicaciones empresariales ha tenido un accidente grave y el equipo del servidor está fuera de servicio. La infraestructura IT no está disponible. Claro que habías estado siguiendo la regla 3-2-1, así que tus copias de seguridad están guardadas en un centro de datos diferente. Pero desplegar los servicios IT tomará demasiado tiempo. Una recuperación ante desastres podría salvarte de un largo tiempo de inactividad.
Cómo funciona la Recuperación ante Desastres y cómo puedes configurarla.
Qué es la recuperación ante desastres
La Recuperación ante Desastres (DR) es un conjunto de herramientas que te permite restaurar rápidamente la operación de los sistemas IT de la empresa en caso de un desastre en el sitio donde se ubican tus recursos IT.
De hecho, DR implica crear un sitio de recuperación ante desastres en el cual la infraestructura IT de la empresa será desplegada después de una falla crítica, total o parcialmente. Cuanto más rápido comiencen a funcionar los servicios en el sitio de recuperación, menores serán las pérdidas, tanto financieras como de reputación, que sufrirá el negocio.
Cómo configurar DR
Dependiendo de la disponibilidad de experiencia y del presupuesto IT en la empresa, el negocio puede implementar la Recuperación ante Desastres de varias maneras. Sin embargo, independientemente del método elegido, el sitio de recuperación debe cumplir con ciertas condiciones.
Distancia geográfica. Así, la emergencia que causó el accidente en el sitio principal no afectará al sitio de reserva. Conectividad de red de calidad al sitio principal. Mientras mejor sea el canal de comunicación, más rápido llegarán los datos al sitio de recuperación.
Los métodos para configurar DR van desde on-platform hasta DRaaS
On-platform. Una empresa dispuesta a realizar gastos de capital serios puede construir su propio sitio de recuperación. Claro, en este caso necesitará adquirir experiencia especializada, por ejemplo, contratar especialistas con las competencias requeridas o usar servicios de integradores.
En infraestructura física arrendada. El sitio de recuperación puede organizarse en servidores físicos rentados de un proveedor de servicios IT. Parte del trabajo de duplicación puede delegarse a especialistas del centro de datos.
Recuperación de copias de seguridad en la nube. Una de las formas más comunes es configurar un sitio de recuperación basado en infraestructura virtual del proveedor de hosting. Los recursos pueden escalarse a tu gusto, y desplegar el sitio toma solo unos días. Además, muchos proveedores ofrecen el modelo Pay-as-You-Go.
Disaster Recovery as a Service (DRaaS). Un servicio de recuperación listo del proveedor. Además de beneficios como un SLA con responsabilidad financiera y pago por uso, esta opción puede incluir bonos como asesoría experta, cumplimiento con 152-FZ y otros.
Parámetros clave para la recuperación ante desastres
Las métricas principales para DR son:
- RPO (Objetivo de Punto de Recuperación);
- RTO (Objetivo de Tiempo de Recuperación).
RPO. Determina la cantidad máxima de datos que un negocio puede permitirse perder en caso de desastre. Es el valor RPO el que determina con qué frecuencia se crean réplicas. Por ejemplo: con un RPO de 1 minuto, se creará una réplica IT cada minuto.
RTO. Determina el tiempo máximo de inactividad que una empresa puede permitirse. Mientras menor sea este parámetro, más rápido funcionarán los servicios después de una falla. Por ejemplo, si el RTO es de 20 minutos, la infraestructura IT funcionará desde el sitio de recuperación a más tardar 20 minutos después de la falla.
Quiénes no pueden prescindir de DR
Configurar la recuperación ante desastres es un proceso bastante laborioso y costoso. Generalmente, no pueden prescindir de él empresas cuyas ganancias y reputación dependen directamente de la eficiencia de los sistemas. Veamos algunos ejemplos.
Una gran organización bancaria. La app del banco ya no funciona: los clientes no pueden acceder a sus cuentas personales ni por el sitio web ni por la app móvil. Las transacciones tampoco están disponibles: ni compras ni transferencias. Servicios adicionales también están inaccesibles: entidades legales no pueden emitir ni pagar facturas o trabajar con intercambio electrónico de documentos. Que esto continúe por 30 minutos es un daño reputacional serio para la organización. Generalmente, un banco no puede prescindir de DR.
Una red social. Un accidente ocurrió en el centro de datos que aloja la infraestructura IT de una famosa red social. El sitio web y la app no funcionan. Los teléfonos y correos de soporte técnico están saturados con mensajes de anunciantes. Las pérdidas financieras por 20 minutos de inactividad ascienden a cientos de miles.
Una pequeña tienda de ropa. La tienda en línea está alojada en una máquina virtual rentada de un proveedor IaaS. La infraestructura virtual queda inaccesible por 30 minutos. Sin embargo, durante este tiempo la pequeña tienda perdió dos pedidos por un total de unos 10 mil rublos.
En los primeros dos casos, el costo de DR está absolutamente justificado. Pero la tienda en línea no vale la pena que gaste su presupuesto IT en DR, ya que el costo de configurarlo sería desproporcionado a la pérdida financiera, por lo que una copia de seguridad sería suficiente.
La copia de seguridad no es DR
Es importante entender que copia de seguridad y recuperación ante desastres cumplen tareas diferentes y no pueden reemplazarse entre sí.
- Las copias de seguridad están diseñadas para aumentar la preservación de datos en caso de pérdida, destrucción o modificación.
- DR está diseñado para reducir el tiempo de recuperación de servicios después de un desastre al reiniciar servicios en un sitio de recuperación.