Am 01. Juli 2025 hat Cloudflare, ein Anbieter für den Schutz von Webseiten, den Content Independence Day ausgerufen, in Reaktion auf grassierende Crawler, die zu deutlich erhöhten Lasten auf Webseiten und teilweise zu deren Absturz geführt hatten. Neben den ohnehin bestehenden Fragen hinsichtlich der Urheberrechte über die textlichen Inhalte bei dem Training von LLMs bildet sich damit ein weiteres Problem heraus: KI-Crawler strapazieren bestehende Infrastruktur auf ihrer Suche nach immer neuen Daten. Dies lässt bereits einen zentralen Interessenswiderspruch durchscheinen: Zwischen Usern auf der Suche nach Informationen, Anbietern von Webseiten und den vermittelnden Anbietern von KI, die diese Bereitstellung von Information zu ihren Gunsten nutzen wollen.
Aber beginnen wir von vorne, bei den Large Language Modellen (LLM), welche die technische Grundlage dessen bilden, was allgemein als KI gefasst wird: LLMs benötigen als Trainingsgrundlage kontinuierlich aktualisierte und neue Daten. Unternehmen wie Anthropic, Microsoft, ByteDance oder OpenAI erheben deshalb kontinuierlich Daten mittels sogenannter Crawler. Crawler sind Bots, welche automatisiert das World Wide Web nach Informationen durchforsten und diese in einer Datenbank hinterlegen. Crawler übernehmen eine wichtige und grundlegende Rolle für die Funktionsweise des modernen World Wide Webs: So sind Suchmaschinen-Crawler, bspw. von Google oder vom Open Web Index, sind im Wesentlichen dafür verantwortlich, dass Suchanfragen überhaupt Webseiten mit den gesuchten Informationen finden können. Unter KI-Crawlern werden mehrere Funktionen zusammengefasst: Die Erhebung von Daten für das Training von neuen Modellen, die Übernahme von Funktionen einer agentischen KI und eine integrierten Websuche. KI-Crawler versuchen somit das Problem des Zugangs zu möglichst aktuellem Wissen im WWW technisch zu lösen.
Da sich diese Crawler weitgehend autonom verhalten, können Webseitenbetreibende nicht-bindende Regeln auf ihren Webseite schalten. Diese können einschränken, welche Unterseiten von einem Crawler besucht werden (oder die Verwendung in Gänze verbieten). Eine solche Einschränkung kann aus unterschiedlichen Gründen gegeben werden, beispielsweise aus Sicherheits- oder Datenschutzgründen oder um die Last auf den Server zu reduzieren. Es ist in Adminkreisen verpönt, diese Regeln zu missachten.
Überbordende Anfragen an eine Webseite können deren Funktionsweise einschränken oder diese zum Absturz bringen. Das Phänomen ist zum Beispiel aus Online-Ticketverkäufen für Großevents bekannt: Wenn wir eine Webseite besuchen, so sendet unser Browser eine Anfrage für die Bereitstellung von Dateien an den jeweiligen Server. Ist die Anfrage erfolgreich, so übermittelt der Server die Dateien an unseren Browser, welche diese dann darstellt. Der Server benötigt Rechenleistung für die Bereitstellung von Dateien. Vereinfacht kann angenommen werden, dass komplexere Anfragen eine höhere Leistung benötigen, bspw. wenn der Server vor der Bereitstellung Daten sammeln oder berechnen muss. Darüber hinaus können auch eine große Menge von kleinen Anfragen den Server überlasten bzw. zum Absturz bringen.
Genau hier liegt der Hase im Pfeffer: Wie in Blogs von Webseitenbetreibenden berichtet wurde, halten sich LLM-Crawler nicht an die Regeln und bombardieren Server förmlich mit Anfragen, erhöhen dadurch die Last auf die Server (und damit die Betriebs- und Administrationskosten) oder bringen diese gar zum Absturz. Beispielsweise dokumentierte ReadTheDocs, eine Dokumentations-Plattform, einen KI-Crawler, der 73 TB innerhalb eines Monats herunterlud und damit Kosten von 5000$ verursachte. Als Reaktion wurden Server so eingestellt, dass sie basierend auf der Selbstidentifizierung von Crawlern deren Anfragen abwiesen. Daraufhin begannen wiederum mehrere Crawler, sich als menschlicher Benutzer auszugeben. Dieses Katz-und-Maus-Spiel und die damit einhergehende Belastung führte schlussendlich so weit, dass Cloudflare (Cloudflare bedient etwa knapp 20% aller Webseiten im World Wide Web) den "Content Independence Day" ausrief und per Standardeinstellung sämtliche Crawls unterband. Der CEO von PerplexityAI, Anbieter eine KI-Suchmaschine, verwies in Reaktion auf die Vorwürfe von Cloudflare auf deren unzureichende Differenzierung zwischen Menschen und Bots. Ungeklärt bleibt in dieser Stellungnahme die Frage nach der Verantwortung: Konkret, inwiefern User durch Perplexity technisch in die Lage versetzt sein sollten, mit alltäglichen Anfragen Webseiten stark zu belasten.
Darüber hinaus wurden neue Tools für Webserver die bei Seitenzugriffen zwischen Crawlern und Usern über eine Rechenaufgabe (also nicht über die Identität) differenzierten. Insbesondere finanziell schwach aufgestellte Open-Source-Projekte waren von diesen gestiegenen Kosten und der erhöhten Arbeitsbelastung betroffen. So klagte bspw. der gemeinnützige Verein Codeberg e.V., der eine europäische Code-Entwicklungsplatform bereitstellt und die Weiterentwicklung unterstützt, wiederholt über Funktionseinschränkungen der Plattform für Nutzende, da die Serverlast durch Crawler Überhand nahm. Diese überwanden in diesem Zuge teilweise bereits existierende Vorkehrungen.
Möglichkeiten für einzelne Organisationen bieten sich nur wenige: Einerseits können hier große Spieler wie Cloudflare zum Schutz der eigenen Webseiten vorgeschaltet werden, anderseits können kleine Tools vor die Webseite geschaltet werden, wie es zum Beispiel die UNESCO tut.
KI-Crawler verursachen hohe Kosten und Funktionseinschränkungen, indem sie etablierte Normen und Wertvorstellungen bei der Datenerhebung vernachlässigen. Erhoben bedeutet in diesem Fall, dass Menschen Daten erzeugen und pflegen und diese über Crawler automatisiert abgerufen werden. Die resultierenden Kosten tragen dabei Organisationen und Personen, welche den Betrieb von Webseiten und damit letzten Endes der Funktionsweise des World Wide Webs als Informationsressource sicherstellen. Hier offenbart sich in mehrfacher Weise die soziale Komponente dieser Form der Datenerhebung: Individuen müssen durch Technologie verursachte Schäden ausgleichen und diese verursachte Mehrarbeit auffangen. Zugleich ist die Arbeit zum Erhalt von Wissen notwendig, damit überhaupt neue Daten für LLMs zur Verfügung stehen. Fragen der sozialen Nachhaltigkeit scheinen damit einmal mehr in weite Ferne gerückt zu sein. Doch auch die Klärung dieser Fragen, insbesondere wer für die verursachte Mehrbelastung aufkommen soll, ist mehr denn je eine soziale, nachdem die technische Regularien hier weitgehend und wiederholt versagt haben.