Der Bluescreen of Death (BSOD), dt. blauer Bildschirm des Todes, sorgte letzte Woche nicht nur für ein persönliches Ärgernis, sondern stellte einen globalen Weckruf dar.
Ein IT-Ausfall bei Microsoft, der durch ein fehlerhaftes Software-Update von CrowdStrike verursacht wurde, hat Schwachstellen in vernetzten Technologiesystemen offengelegt.
Nach Angaben von Microsoft waren weltweit etwa 8,5 Millionen Windows-Geräte von dem Vorfall betroffen. Das sind weniger als 1 % aller Windows-Rechner global.
Die Folgen waren jedoch erheblich und weitreichend. Betroffen waren verschiedene Sektoren wie Fluggesellschaften, Banken, Krankenhäuser und sogar Notdienste.
Nach Schätzungen des auf die Analyse von Cloud-Ausfällen spezialisierten Unternehmens Parametrix Insurance hat die Störung den Fortune-500-Unternehmen in den USA direkte Verluste in Höhe von rund 5,4 $ Milliarden zugefügt.
Der Ausfall war nicht nur eine Unannehmlichkeit, sondern ein Blick in eine Zukunft, in der ein einziger Fehler die halbe Welt zum Stillstand bringen kann.
Angesichts eines Ausfalls dieses Ausmaßes stellt sich die Frage, ob wir uns auf eine technische Dystopie zubewegen, in der alles miteinander verbunden ist, aber die Widerstandsfähigkeit nicht ausreicht.
Wir haben die Gefahren gebündelter Dienstleistungen untersucht und dabei eine Vielzahl von Expertenmeinungen für eine umfassende Analyse der Lehren herangezogen.
Wichtigste Erkenntnisse
- Paul Mardling, CTO bei Redcentric, unterstreicht die Notwendigkeit unabhängiger Systeme zur Verringerung des Ausmaßes der negativen Konsequenzen von IT-Ausfällen.
- Yannik Schrade, CEO von Arcium, warnt vor den Risiken zentralisierter proprietärer Systeme und schlägt dezentrale Alternativen wie die Blockchain-Technologie vor.
- Nicholas Reese, außerordentlicher Professor an der NYU, fordert Transparenz in Software-Lieferketten und die Offenlegung kritischer Pfade zur Erhöhung der Cybersicherheit durch die Anbieter.
- Shash Anand, VP bei SOTI, hebt robuste Lösungen für das Enterprise Mobility Management und einen vielschichtigen Sicherheitsansatz zum Schutz vor Softwarefehlern und Datenlecks hervor.
- Unsere Experten weisen gemeinsam auf die Notwendigkeit für Unternehmen hin, Risikoanalysen vorzunehmen, hohe Sicherheitsstandards durchzusetzen und sich auf Eventualitäten zur Minimierung der Auswirkungen künftiger IT-Ausfälle vorzubereiten.
Probleme mit vernetzten IT-Diensten gab es schon immer
CrowdStrike hat zwar inzwischen angeboten, wie die jüngste Microsoft-Ausfallzeit auf Windows-Rechnern behoben werden kann, aber der Vorfall zeichnet dennoch ein Bild von einem besorgniserregenden Trend zu großflächigen Störungen in einem vernetzten Ökosystem.
Mehrere aufsehenerregende Ausfälle in den letzten Jahren machen deutlich, dass die technische Infrastruktur anfällig ist und ein einziger Fehler zu einem weit verbreiteten Chaos führen kann.
Im Dezember 2020 kämpfte Google mit einem weltweiten Ausfall, der nach eigenen Angaben durch ein scheinbar routinemäßiges Problem mit seinem automatischen Speicherkontingentsystem verursacht wurde.
Dieses löste eine 47-minütige Unterbrechung von Google Mail, YouTube und Google Workspace aus, von der Millionen von Nutzern betroffen waren.
Es zeigte, dass selbst kleine Änderungen innerhalb eines eng gebündelten Systems unvorhergesehene Folgen haben und einen Dominoeffekt bewirken können, der alles zum Einsturz bringt.
Selbst Cloud-Anbieter, die oft auf Redundanz ausgelegt sind, bleiben davon nicht verschont. Amazon Web Services (AWS) erlebte im Dezember 2021 einen größeren Ausfall in seiner Region US-East-1.
Obwohl es sich um ein lokales Problem handelte, hatte es aufgrund des zentralisierten Charakters von Cloud-Diensten weitreichende Folgen.
In diesem Fall fielen zahlreiche auf die AWS-Infrastruktur gestützte Online-Dienste und Websites aus.
Ein ähnliches Schicksal ereilte Meta im Jahr 2021.
Eine einfache Fehlkonfiguration in ihren Routern verursachte einen sechsstündigen Ausfall, der Facebook, Instagram und WhatsApp weltweit lahmlegte.
Derartige Vorfälle zeigen auch die Anfälligkeit miteinander verbundener Systeme, bei denen eine einzige Fehleinstellung in einem Teil des Netzes einen Dominoeffekt auslösen kann, der mehrere Plattformen gleichzeitig unterbricht.
Gebündelte IT-Dienste ohne Ausfallsicherheit zwecklos
Ein charakteristisches Merkmal der führenden IT-Unternehmen ist das Bestreben, die meisten ihrer IT-Kerndienste unter einem Dach zu vereinen.
In den letzten zehn Jahren sind Konzerne wie Microsoft, AWS, Google und Meta an ihre Grenzen gestoßen und haben umfassende Produktpakete angeboten – von der Cloud-Infrastruktur über Produktivitätssoftware bis hin zu Hardware.
Microsoft ist zwar das jüngste Opfer eines groß angelegten IT-Ausfalls, aber der Wunsch, IT-Dienste in einer einzigen Plattform zusammenzufassen, ist nicht auf den Windows-Hersteller beschränkt.
Andere Tech-Giganten wie Google und Meta haben ähnliche Strategien zur Entwicklung allumfassender Plattformen verfolgt.
Die Integration von Googles Such-, E-Mail-, Cloud-Speicher- und Produktivitäts-Tools in die Google Workspace-Suite bedeutet, dass sich Probleme bei einem Dienst potenziell auf das gesamte System auswirken können.
In ähnlicher Weise hat die Integration von Facebook, Instagram und WhatsApp durch Meta zu Situationen geführt, in denen Ausfälle mehrere Plattformen gleichzeitig betreffen.
Mit anderen Worten: Um dieses Maß an Vernetzung und die Ausweitung von Produkten und Diensten zu erzielen, müssen die Tech-Giganten häufig ihren Pool an Drittanbietern erweitern.
Die Schwachstellen liegen daher manchmal nicht im Haus der Tech-Giganten, sondern in den ausgedehnten Ökosystemen der Drittanbieter, auf die sie sich verlassen.
Dieser Ansatz sichert zweifellos die Vorherrschaft dieser Tech-Riesen, hat aber oft lähmende Folgen, wenn etwas schief geht.
Durch die Komplexität, die gebündelte IT-Systeme mit sich bringen, ist es sehr viel schwieriger, eine angemessene Ausfallsicherheit zu erreichen.
Ein Aufruf für mehr unabhängige Systeme
Für viele IT-Experten geht es bei der Lösung nicht nur um den Aufbau von Widerstandsfähigkeit, sondern auch darum, den Wettlauf um die Vereinheitlichung der technischen Dienste zu verkürzen.
Im Gespräch mit Techopedia argumentiert Paul Mardling, CTO beim IT-Dienstleister Redcentric, dass unabhängige Systeme eine größere Chance zur Minimierung des Ausmaßes der Auswirkungen eines IT-Ausfalls haben.
„Die Verwendung einer Reihe unabhängiger Systeme als Teil einer Lösung könnte das Ausmaß der Auswirkungen verringern, wenn ein Problem mit einer einzelnen Komponente des Systems auftritt.
Anders als bei eng gebündelten Lösungen ist es unwahrscheinlich, dass ein Problem von einer Komponente auf eine andere übergreift.“
Wie Yannik Schrade, CEO und Mitbegründer von Arcium, gegenüber Techopedia erklärte, sieht er die Welt auf einem Joker sitzen, weil sie sich zu sehr auf zentralisierte, proprietäre Systeme und Lieferketten mit einem einzigen Ausfallpunkt verlässt.
Zitat:
„Der globale IT-Ausfall zeigt die Grenzen und Risiken unserer Abhängigkeit von zentralisierten proprietären Systemen und Lieferketten auf. Diese Situation macht deutlich, dass diese Art von Versorgungskette mit einzelnen Fehlerpunkten unsere derzeitige Internet-Infrastruktur tief durchdringt und Krankenhäuser, Unternehmen und das traditionelle Finanzsystem auf einem Kartenhaus sitzen, das leicht zusammenbrechen kann.“
Darüber hinaus betonte Schrade die Notwendigkeit der Überwindung der zentralisierten Infrastruktur und bezeichnete sie als einen veralteten Ansatz für IT-Dienstleistungen.
„Die zentralisierte Infrastruktur ist ein altes Konzept, das es zu beseitigen gilt. Die Blockchain-Technologie und insbesondere das dezentralisierte Confidential Computing sind eine dringend benötigte und realistische Alternative.“
Nicholas Reese, außerordentlicher Professor an der New York University, äußert sich besorgt über die zunehmende Komplexität und die Risiken, die mit eng gebündelten Technologielösungen einhergehen.
Er argumentiert, dass diese Pakete zwar bequem sind, aber zu einer „gefährlichen Kombination“ aus Technologie und menschlichem Versagen werden können.
Besonders bedenklich findet Reese den Mangel an Transparenz in den Software-Lieferketten.
„Falls es weiterhin eng gebündelte Technologielösungen geben wird, sollten sie mit einem Warnhinweis versehen werden“, sagte Reese.
Er schlägt ein System vor, bei dem die Hersteller zur Offenlegung der Feinheiten ihrer Software verpflichtet sind, einschließlich der Identifizierung kritischer Pfade und der Weitergabe dieser Informationen an Regierungsbehörden wie die CISA.
Dies ist seiner Meinung nach entscheidend für die Stärkung der Cybersicherheit, ohne dass sensible Informationen gefährdet werden.
Wie sich Unternehmen auf zukünftige globale IT-Service-Ausfälle vorbereiten können
Um die Auswirkungen künftiger IT-Ausfälle zu minimieren, fordert Redcentric-CTO Mardling die Unternehmen auf, zunächst eine Risikoanalyse in Bezug auf weitgehend verbundene IT-Dienste durchzuführen und sich auf Eventualitäten vorzubereiten.
Er erklärte:
„Der Schlüssel liegt darin, das mit einer bestimmten gebündelten Technologie einhergehende Risiko abzuschätzen und es mit der Risikobereitschaft und den potenziellen Auswirkungen zu vergleichen, sollte das Risiko tatsächlich eintreten.“
„Es gibt keine pauschale Antwort, da der Verlust eines bestimmten Systems für ein Unternehmen gering sein kann, für ein anderes jedoch erhebliche betriebliche Probleme zur Folge haben könnte.“
Professor Reese empfiehlt als Ausgangspunkt eine Vertragssprache, die hohe Sicherheitsstandards durchsetzt. „Die Schwachstellen der Technologieanbieter sind auch Ihre Schwachstellen“, warnt er.
Durch die Aufnahme strenger Sicherheitsmaßnahmen in die Verträge vor Beginn einer Zusammenarbeit können Unternehmen ihre Lieferanten zur Rechenschaft ziehen und sich vor möglichen Verstößen schützen, rät er.
Shash Anand, VP of Product Strategy beim Anbieter von Mobilitätslösungen für Unternehmen SOTI, weist auf die anhaltende Bedrohung durch Softwarefehler und die entscheidende Rolle von Sicherheitsupdates hin.
Angesichts der Tatsache, dass Datenlecks auf mobilen Geräten das größte Sicherheitsproblem darstellen, betont Anand die Notwendigkeit robuster Lösungen für das Enterprise Mobility Management (EMM).
Er ruft Unternehmen dazu auf, einem anpassbaren und skalierbaren Technologiepaket zur Risikominderung den Vorzug zu geben.
Darüber hinaus empfiehlt Anand einen vielschichtigen Ansatz für die Sicherheit, einschließlich regelmäßiger Audits, Redundanz, modularer Lösungen und Mitarbeiterschulungen.
Fazit
Der Ausfall von Microsoft hat die Gefährlichkeit unserer hypervernetzten Welt deutlich gemacht.
Das Streben nach gebündelten Technologielösungen bietet zwar Effizienz und bessere finanzielle Gewinne für Big Tech, schafft aber ein einsturzgefährdetes Kartenhaus.
Die jüngsten Ausfälle bei Google, Amazon und Meta zeigen, dass ein einziger Fehler zu einem weitreichenden Chaos führen kann.
Nach Ansicht der Fachleute sollten die Systeme zur Eindämmung der Risiken unabhängiger werden.
Allerdings gilt es, dies mit dem Wunsch nach integrierten Lösungen in Einklang zu bringen. Unternehmen und Privatpersonen müssen der Sicherheit, Transparenz und Redundanz Priorität einräumen.
Tech-Giganten, politische Entscheidungsträger und Nutzer teilen die Verantwortung für den Aufbau einer widerstandsfähigeren digitalen Zukunft.
Quellenangaben
- Helping our customers through the CrowdStrike outage – The Official Microsoft Blog
- In the News – Parametrix – Cloud Insurance
- Summary of the AWS Service Event in the Northern Virginia (US-EAST-1) Region
- Managed IT Service Provider UK | Cutting-Edge Enterprise IT Solutions | Redcentric
- Arcium | The first parallelized confidential computing network
- SOTI | Enterprise Mobility Solutions