Wichtige Erkenntnisse
- Am 19. Juli 2024 führte ein Defekt bei einem einzigen Content-Update der Software auf Microsoft Windows-Betriebssystemen zu einem globalen Computerausfall, von dem Flughäfen, Banken, Krankenhäuser und zahlreiche andere Unternehmen betroffen waren.
- IT-Ausfälle scheinen zwar weniger häufig aufzutreten, können aber schwerwiegende Folgen haben, da die durchschnittlichen Kosten für IT-Ausfallzeiten hoch sind und weiter steigen.
- Die Verbesserung der Widerstandsfähigkeit der IT-Sicherheitsinfrastruktur und die Gewährleistung ihrer schnellen Wiederherstellung nach potenziellen Störungen sind von zentraler Bedeutung für eine digitalisierte Gesellschaft und eröffnen enorme Investitionsmöglichkeiten.
Ein routinemäßiges Software-Update führte kürzlich zu einem der größten IT-Ausfälle, der Unternehmen weltweit lahmlegte: Tausende von Flügen wurden gestrichen, Mitarbeiter konnten sich nicht in ihre Computer einloggen, Operationen in Krankenhäusern wurden verschoben und Fernsehsender fielen aus. Die Ereignisse vom 19. Juli haben uns eindringlich vor Augen geführt, dass Ausfälle von IT- und Rechenzentren schwerwiegende Folgen für unsere moderne Gesellschaft haben können.
Wie hat sich der Ausfall zugetragen?1
Der Cybersecurity-Anbieter CrowdStrike Inc. hat am Freitag, 19. Juli 2024, um 6:09 Uhr MEZ ein Content Configuration Update für den Windows-Sensor veröffentlicht. Diese Konfiguration löste einen Logikfehler aus, der zu einem Absturz des Windows-Systems und zu blauen Bildschirmen auf den betroffenen Computern führte. Apple- und Linux-Betriebssysteme waren nicht betroffen.
Etwa 80 Minuten später hatte das Unternehmen das Problem identifiziert, isoliert und das Update rückgängig gemacht. Die Systeme, die nach dieser Zeit online gingen oder die während dieses Zeitfensters keine Verbindung herstellten, waren nicht betroffen. Laut CrowdStrike war das Problem „nicht das Ergebnis eines Cyberangriffs oder stand auch nicht mit einem solchen in Zusammenhang“. Insgesamt waren etwa 8,5 Millionen Geräte (weniger als ein Prozent aller Windows-Rechner) betroffen.
Am Donnerstag, den 25. Juli, waren mehr als 97% der 8,5 Millionen betroffenen Geräte wieder online und betriebsbereit.
Kurz nach dem IT-Ausfall schlugen die Aufsichtsbehörden Alarm, weil betrügerische Websites vorgaben, Störungen beheben zu können, um den Vorfall auszunutzen. Nach Angaben der Financial Times versuchten Hacker, bösartige Aktivitäten durchzuführen, wie z. B. die Verbreitung einer Zip-Archivdatei, die offenbar auf CrowdStrike-Nutzer in Lateinamerika abzielte2. In einer Bewertung des Unternehmens Interos, das sich mit der Risikoresistenz von Lieferketten befasst, heißt es, dass der Ausfall von CrowdStrike direkte Auswirkungen auf 674.620 Kundenbeziehungen und indirekte Auswirkungen auf mehr als 49 Millionen hatte3.
IT-Ausfälle – weniger häufig, aber immer noch wirkungsvoll
Es besteht kein Zweifel daran, dass die Digitalisierung unserer Gesellschaft und die Vernetzung des globalen IT-Systems immense Vorteile in Form von Effizienzgewinnen gebracht haben. Gleichzeitig hat die Konnektivität jedoch auch Schwachstellen in den Systemen geschaffen, auf die wir uns in hohem Masse verlassen haben – ein Risiko, das katastrophale Folgen haben kann, wenn es nicht angemessen eingeschränkt wird, wie der von CrowdStrike verursachte Ausfall zeigt. Auch wenn „nur“ weniger als ein Prozent aller Windows-Rechner von dem Ausfall betroffen waren, zeigen die weitreichenden wirtschaftlichen und gesellschaftlichen Auswirkungen, wie fragil die weltweite Internet-Infrastruktur ist. Es hat den Anschein, dass Regierungen und Unternehmen davon ausgegangen sind, dass Cyber-Resilienz zwar wichtig, aber keineswegs dringend ist.4
Wir sind der Meinung, dass die Vermeidung solcher Vorfälle für die Betreiber unternehmenskritischer digitaler Infrastruktur auch in Zukunft eine Priorität bleiben muss. Laut einer vom Uptime Institute durchgeführten Umfrage sind Probleme mit der Stromversorgung vor Ort die Hauptursache für erhebliche Standortausfälle, gefolgt von Kühlungsfehlern, Software-/IT-Systemfehlern und Netzwerkproblemen (Grafik 1). Interessanterweise scheinen die Ausfallraten in den letzten Jahren zwar allmählich zu sinken, aber die Häufigkeit von Problemen bei Drittanbietern (z. B. Software-as-a-Service-, Hosting- und Cloud-Anbietern) hat zugenommen, was auf eine stärkere Nutzung des Cloud Computing zurückzuführen sein könnte.
Grafik 1:Kuchendiagramme zur Veranschaulichung der wichtigsten Fälle von größeren Ausfällen in den Jahren 2020-2022, wobei die meisten Vorfälle auf Strom, IT-Systeme und Netzwerke zurückzuführen sind.
Die Rolle von Drittanbietern in der kritischen Unternehmens-IT-Infrastruktur wird wahrscheinlich zunehmen. Unserer Ansicht nach ist keine IT-Architektur ausfallsicher, und viele der verzeichneten Ausfälle lassen sich auf die Schwierigkeiten bei der Verwaltung komplexer Software, Daten und Netzwerke zurückführen.
Es kommt weiterhin zu Ausfällen, aber nur ein kleiner Teil davon ist gravierend oder schwerwiegend. Per Stichjahr 2023 werden die Auswirkungen der meisten Rechenzentrums- und IT-Ausfälle weltweit als vernachlässigbar oder minimal eingestuft, 27% der Ausfälle haben erhebliche Auswirkungen auf Unternehmen, 6% werden als schwerwiegend und 4% als gravierend eingestuft (Grafik 2).
Grafik 2:Kuchendiagramm, das zeigt, wie gravierend die Ausfälle von 2023 waren: 41 % vernachlässigbar, 32 % minimal und nur 4 % schwerwiegend
Steigende Ausfallkosten
Alternde Hardware, veraltete Software, inkonsistente Backups und schlechte IT-Sicherheitspraktiken werden häufig als Hauptgründe für Ausfälle genannt, die zudem immer teurer werden.
Laut einer Studie von Gartner Research aus dem Jahr 2014 beliefen sich die Ausfallkosten pro Minute auf 5.600 USD5, während das Ponemon Institute diese Zahl 2016 auf fast 9.000 USD pro Minute anhob6. Im Jahr 2022 veröffentlichte Information Technology Intelligence Consulting eine Studie über die Zuverlässigkeit von Servern, die die Kosten von IT-Ausfallzeiten auf mindestens 5.000 USD pro Minute bezifferte. Etwa 44% der Befragten beziffern die Kosten auf 16.700 USD pro Server/pro Minute oder auf etwa 1 Million USD pro Stunde. Interessanterweise nannten in derselben Studie 76% der Befragten Sicherheits- und Datenverletzungen als größte Bedrohung für die Stabilität und Zuverlässigkeit von Servern, Anwendungen, Rechenzentren, Netzwerken und Cloud-Systemen.7
Unserer Ansicht nach ist der Hauptgrund für die steigenden Kosten von Ausfällen (neben Inflation, Arbeitskosten und Ersatzteilen) die wachsende Abhängigkeit unserer Gesellschaft von digitalen Diensten und Rechenzentren. Der Ausfall eines kritischen IT-Dienstes führt oft sofort zu einer Unterbrechung der Geschäftstätigkeit und zu Umsatzeinbußen.
IT-Sicherheit – eine Anlagemöglichkeit mit enormem Potenzial
Unserer Meinung nach ist der Schutz kritischer IT-Infrastrukturen von größter Bedeutung, da sie heute die Achillesferse unserer digitalen Gesellschaft darstellen. Die Ausgaben für IT-Sicherheit dürften nach dem fehlgeschlagenen Update bei CrowdStrike steigen, was die Kunden animiert, ihre Abhängigkeit von einem einzigen IT-Sicherheitsanbieter zu überdenken.
Im Zuge der fortschreitenden Digitalisierung unserer Gesellschaft sollte die Verbesserung der Widerstandsfähigkeit der IT-Sicherheitsinfrastruktur und die Gewährleistung ihrer schnellen Wiederherstellung nach potenziellen Störungen zu einer Priorität werden. Daher ist es wichtig, dass Regierungen und Privatunternehmen ihre Bemühungen zur Gewährleistung der Robustheit kritischer IT-Infrastrukturen verstärken. Infolgedessen dürften sich attraktive Investitionsmöglichkeiten ergeben, insbesondere im Bereich der agentenlosen Sicherheit (bei der keine Software auf den Endgeräten erforderlich ist und die vorhandene Infrastruktur für die Überwachung und den Schutz in Echtzeit genutzt wird) und bei Systemen, die die Ausfallsicherheit kritischer IT-Infrastrukturen gewährleisten.
Code: S-08/2024 NAMT-1536
1 CrowdStrike (2024): https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/, abgerufen am 1.8.2024.
2 Financial Times (2024): Betrüger nutzen IT-Ausfall aus, warnen Wachhunde in: Financial Times, 22.07.2024, S. 6.
3 Interos (2024): Interos analysiert Auswirkungen massiver CrowdStrike-Ausfälle in der Lieferkette, https://www.interos.ai/blog-crowdstrike-impact-analysis-at-least-674000-enterprise-customers-at-risk-of-disruption-globally/, abgerufen am 31.7.2024.
4 IT-Ausfälle kommen offenbar recht häufig vor. Eine ausgewählte Liste von Beispielen aus der Vergangenheit finden Sie z. B. unter Invgate (2024): 8 Crowdstrike IT-Ausfallstatistiken zum Verständnis der Auswirkungen auf die Welt, 23.07.2024, https://blog.invgate.com/crowdstrike-it-outage-stats, abgerufen am 1.8.2024.
5 Gartner (2014): Verbesserung der Verfügbarkeit durch Best-in-Class-Benchmarking und durch gezielte Bekämpfung der Ursachen von Ausfallzeiten, 26.09.2014, URL: https://www.gartner.com/en/documents/2856317, 2.8.2024.
6 Das Ponemon Institute (2016): Kosten für Ausfälle von Rechenzentren, Januar 2016, URL: , 2.8.2024.
7 ITIC (2022): Sicherheit, Datenverstösse Hauptursache für Ausfallzeiten im Jahr 2022, 8. April 2022, URL: https://itic-corp.com/security-data-breaches-top-cause-of-downtime-in-2022/, 2.8.2024.