La Falla Global de CrowdStrike: Una Prueba para tu Plan de Recuperación ante Desastres Tecnológicos

La Falla Global de CrowdStrike: Una Prueba para tu Plan de Recuperación ante Desastres Tecnológicos

«Aprende cómo la falla de Crowdstrike pone a prueba los planes de recuperación ante desastres. Descubre estrategias clave para proteger tu empresa contra interrupciones tecnológicas inesperadas.»

Mucho se ha escrito sobre las razones técnicas y las que deberían ser las consecuencias de los sucedido el 18-jul-24 cuando CrowdStrike liberó una actualización a su agente Falcon que causó que los sistemas Windows corriendo dicho agente se fueran a la pantalla azul de la muerte (BSOD en inglés). 

Seguramente esta situación se pudo prevenir o evitar ya sea por Crowdstrike o Microsoft en el peor de los casos, pero ese no es el tema de este artículo.

De lo que sí quiero hablarte es de lo común que pueden llegar a convertirse este tipo de eventos y sobre cómo tu plan de recuperación ante desastres tecnológicos debió ayudarte a atender esta situación.

Que una empresa se vea afectada por una falla en uno de los paquetes de software en los cuales confía no es algo nuevo. Ha sucedido en clientes de paquetes de software de impuestos (NotPetya), gestión de equipos, gestión de redes (recuerda Solarwinds) y hasta con otros de seguridad informática o seguridad de redes.

En el caso de la falla global de Crowdstrike la consecuencia inmediata en los equipos afectados fue la pantalla azul de muerte y la recuperación requiere de acceso local al equipo afectado. Esta consecuencia y solución son bastante similares a los de un ataque de ransomware que requiere la reinstalación de los equipos afectados.

Tu plan de recuperación ante desastres tecnológicos (DRP en inglés), versión ransomware,  debió ser tu principal guía a la hora de atender la falla global de Crowdstrike.

Si no tienes un plan de recuperación ante desastres tecnológicos que atienda la necesidad de recuperar todos tus equipos ante cualquier evento que los deje inoperantes, LO DEBES HACER YA.

Si fuiste de los desafortunados clientes de CrowdStrike afectados quiero que en los próximos días hagas lo siguiente:

  1. Postmortem: Realiza una o varias reuniones de postmortem con todo el equipo que fue responsable de recuperar tu entorno buscando identificar lo que funcionó bien y lo que no. Áreas a evaluar:
    1. Detección: A qué hora empezó el problema y a qué hora te diste cuenta. ¿Estás cómodo con lo sucedido en cuanto a detección? ¿Fuiste informado por quién debió informarte?
    2. Proveedores: ¿Tuviste el apoyo necesario para enfrentar esta situación?
    3. Documentación: Una vez estabas informado, ¿qué necesitaste para saber el alcance del problema? Por ejemplo, tu plan de recuperación ante desastres tecnológicos, ¿fue de ayuda? ¿Estuvo disponible la documentación necesaria para recuperar el entorno?
    4. Dependencias no conocidas: ¿Existen dependencias entre los sistemas que no tenías documentadas y que limitaron la capacidad de recuperación?
    5. Redundancia: ¿funcionó? Si la respuesta es no, ¿cuál fue la causa raíz? ¿cómo vas a corregir?
    6. Recuperación: ¿funcionó? Si la respuesta es no, ¿cuál fue la causa raíz? ¿cómo vas a corregir?
    7. Tiempo de recuperación: ¿Tienes los controles adecuados para recuperar a todos los sistemas y equipos de escritorio en el tiempo que el negocio requiere?
    8. Punto de recuperación: ¿cuáles son los puntos de recuperación de respaldos que el negocio requiere? 
    9. Otras fuentes de riesgo: define cuáles son los software que forman parte de tu estándar corporativo. Para cada uno de ellos evalúa el riesgo de que sea utilizado para compartir software malicioso o para dañar al equipo donde se ejecuta. 
    10. El peor escenario: ¿cómo pudo haber sido peor el evento? Lista causales y consecuencias de un peor escenario y define un plan de acción para reforzar lo que funcionó bien y evaluar implementar lo que pudo evitar que fuese peor.
  2. Plan de Acción: Realiza un plan de acción para la corrección de los puntos arriba identificados y prueba dichos controles en los próximos 2 meses.
  3. Reconoce al equipo humano: ya sea interno o externo que participó en el proceso de recuperación de manera que sientan que su esfuerzo es reconocido y remunerado. 

Si no fuiste afectado por este evento quiero que hagas lo siguiente lo más pronto posible:

  1. Reconocer: que pudo pasar a tu organización.
  2. Comunica: a los interesados sobre lo que pasó con la falla global de Crowdstrike y cómo algo similar pudo pasar en tu empresa para que se puedan realizar los cambios necesarios.
  3. Prepárate:
    1. Listado paquetes de software como el EDR que forman parte de tu estándar corporativo y pueden volverse un instrumento para un incidente similar.
    2. Plan de Recuperación ante Desastres Tecnológicos: definiendo y probando procesos de recuperación tecnológica ante situaciones como esta. No importa qué tan protegida o redundante esté un negocio, todo negocio que usa tecnología debe tener un plan de recuperación que le permita recuperar TODA la tecnología ante un ataque no malicioso como el de Crowdstrike o ante un ataque malicioso como el  ransomware.
    3. Plan de Continuidad de Negocio: creando un PCN por área de negocio que defina la forma como cada área de negocio operaría ante una falla mayor que deje inhabilitada la tecnología de la cual tanto dependen todos.

Por último quiero invitarlos a todos a compartir sus experiencias y comentarios. Somos más resilientes cuando compartimos y nos ayudamos entre todos.

Te invito a seguirme en Linkedin y X.

Comments are closed.