Am Dienstag erlebte Cloudflare seinen schlimmsten Ausfall seit 6 Jahren. Der Zugriff auf zahlreiche Websites und Online-Plattformen war fast 6 Stunden lang blockiert, nachdem eine Änderung der Datenbankzugriffskontrollen einen kaskadierenden Ausfall im gesamten globalen Netzwerk auslöste.
Das globale Netzwerk des Unternehmens ist eine verteilte Infrastruktur aus Servern und Rechenzentren in mehr als 120 Ländern, die Dienste für Inhaltsbereitstellung, Sicherheit und Leistungsoptimierung bereitstellt und Cloudflare mit über 13.000 Netzwerken verbindet, darunter alle wichtigen ISPs, Cloud-Anbieter und Unternehmen weltweit.
Matthew Prince, der CEO des Unternehmens, sagte in einer nach der Behebung der Störungen veröffentlichten Nachbesprechung, dass die Serviceausfälle nicht durch einen Cyberangriff verursacht wurden. „Das Problem wurde weder direkt noch indirekt durch einen Cyberangriff oder böswillige Aktivitäten jeglicher Art verursacht. Vielmehr wurde es durch eine Änderung der Berechtigungen eines unserer Datenbanksysteme ausgelöst, die dazu führte, dass die Datenbank mehrere Einträge in eine „Feature-Datei“ ausgab, die von unserem Bot-Management-System verwendet wird“, sagte Prince .
Der Ausfall begann um 11:28 UTC, als ein routinemäßiges Update der Datenbankberechtigungen dazu führte, dass das Bot-Management-System von Cloudflare eine übergroße Konfigurationsdatei mit doppelten Einträgen erstellte. Die Datei, die die vorgegebenen Größenbeschränkungen überschritt, verursachte einen Softwareabsturz beim Weiterleiten des Datenverkehrs über das Cloudflare-Netzwerk. Diese Datenbankabfrage lieferte nach den Berechtigungsänderungen doppelte Spaltenmetadaten, wodurch sich die Feature-Datei von etwa 60 Features auf über 200 verdoppelte und damit die im System fest codierte Grenze von 200 Features überschritten wurde, die einen unbegrenzten Speicherverbrauch verhindern soll. Alle fünf Minuten wurden durch eine Abfrage entweder korrekte oder fehlerhafte Konfigurationsdateien generiert, je nachdem, welche Clusterknoten aktualisiert worden waren. Dies führte dazu, dass das Netzwerk zwischen funktionierenden und fehlerhaften Zuständen schwankte.
Als sich die übergroße Datei über die Rechner im Netzwerk ausbreitete, löste der Rust-Code des Bot-Management-Moduls einen Systemabsturz und 5xx-Fehler aus, wodurch das Kern-Proxy-System, das für die Verarbeitung des Datenverkehrs zuständig ist, abstürzte.
Der Kerndatenverkehr normalisierte sich um 14:30 UTC, nachdem die Cloudflare-Techniker die Ursache identifiziert und die problematische Datei durch eine ältere Version ersetzt hatten. Alle Systeme waren um 17:06 UTC wieder voll funktionsfähig. Der Ausfall betraf die zentralen CDN- und Sicherheitsdienste von Cloudflare, Turnstile, Workers KV, den Dashboard-Zugriff, die E-Mail-Sicherheit und die Zugriffsauthentifizierung.
2 „Gefällt mir“