Crowdstrike Ausfall

..eigentlich ist alles gesagt – die Medien waren am 19.07.24 komplett voll, die wahrscheinlich größte IT-Katastrophe der Geschichte. Wenn quasi die halbe Welt steht von Flughäfen, Banken, Krankenhäuser,.. dann ist was gravierendes passiert.
Auslöser – noch nicht 100% klar, aber auf jeden Fall ein „fehlerhaftes Update“ der EDR-Lösung von Crowdstrike Falcon Sensor.
Es scheint wohl auch bei Microsoft, mit Schwerpunkt in den USA, in Azure Rechenzentren eingesetzt worden zu sein, d.h. es gab zusätzlich noch Probleme mit der Downtime eines Hyperscalers.

Lessons learned:

Auch sehr gute EDR Lösungen können Fehler haben und die Diskussionen werden wohl ewig weitergehen zwischen – „sofort zu patchen bzw Updates zu verteilen“ oder diese erstmal ausgiebig zu „testen“.
Ich persönlich bin der Meinung, dass ein wirkliches Testing nur in der sehr großen Organisation funktioniert. Warum ? Es muss die Zeit, IT-Ressourcen und das Know-How da sein, um auch wirkliche „Tests“ durchführen zu können. Sonst dann lieber automatisch und mit etwas Verzögerung installieren lassen – außer es sind entsprechende Exploits bekannt bzw Warnungen, dann vielleicht doch „unverzüglich“ in die Testgruppe damit 😉

Hier noch ein paar Links direkt zu Crowdstrike und deren Blog:
https://www.crowdstrike.com/blog/statement-on-falcon-content-update-for-windows-hosts/
https://www.crowdstrike.com/blog/our-statement-on-todays-outage/
https://www.crowdstrike.com/wp-content/uploads/2024/07/How-to-identify-hosts-possibly-impacted-by-Windows-crashes.pdf

Microsoft Defender – granulare Einstellmöglichkeiten, diese sind oftmals auch nicht so „perfekt“ eingestellt, die Seite fand ich recht gut: https://cloudbrothers.info/en/gradual-rollout-process-microsoft-defender/