Threat Spotlight: Die Guten, die Bösen und die „grauen Bots“ – die generativen KI-Scraper-Bots, die es auf Ihre Web-Apps abgesehen haben

Themen:

2. Apr.. 2025

Bots sind automatisierte Softwareprogramme, die für die Durchführung von Online-Aktivitäten im großen Maßstab entwickelt wurden. Es gibt gute Bots – etwa Crawler-Bots für Suchmaschinen, SEO-Bots und Kundendienst-Bots – und schlechte Bots für bösartige oder schädliche Online-Aktivitäten wie das Eindringen in Konten zum Diebstahl persönlicher Daten oder für Betrugsfälle.

In dem Raum dazwischen finden Sie das, was Barracuda „Grauzonen-Bots“ nennt. Scraper-Bots mit generativer KI sind Grauzonen-Bots, die große Datenmengen von Websites extrahieren oder „scrapen“ (also das Letzte herausholen) , oft um generative KI-Modelle zu trainieren. Andere Beispiele für Grauzonen-Bots sind Web-Scraper-Bots und automatisierte Inhaltsaggregatoren, die Webinhalte wie Nachrichten, Rezensionen, Reiseangebote usw. sammeln.

Grauzonen-Bots verwischen die Grenzen legitimer Aktivität. Sie sind nicht offenkundig bösartig, aber ihre Vorgehensweise ist durchaus fragwürdig. Einige sind sehr aggressiv.

Wir haben kürzlich darüber berichtet, wie Unternehmen ihre Web-Applikationen, einschließlich Websites, besser vor KI-Scraper-Bots schützen können. In diesem Bericht sehen wir uns an, was die Daten über die Aktivitäten von Grauzonen-KI-Bots aussagen, mit denen Unternehmen heute konfrontiert sind.

Grauzonen-Bots sind hungrig.

Die Erkennungsdaten von Barracuda zeigen Folgendes:

Zwischen Dezember und Ende Februar 2025 gingen Millionen von Anfragen bei Web-Applikationen von KI-Bots ein, darunter ClaudeBot und der Bytespider-Bot von TikTok.
Eine getrackte Web-Applikation erhielt über einen Zeitraum von 30 Tagen 9,7 Millionen KI-Scraper-Bot-Anfragen.
Eine andere getrackte Web-Applikation erhielt an einem einzigen Tag über eine halbe Million KI-Scraper-Bot-Anfragen.
Die Analyse des Traffics der Grauzonen-Bots, der auf eine weitere getrackte Web-Applikation abzielte, ergab, dass die Anfragen über 24 Stunden relativ konstant blieben – durchschnittlich etwa 17.000 Anfragen pro Stunde.

Aktivität des Scraper-Bots über 24 Stunden

Diese Permanenz des Anfrageverkehrs war unerwartet. Im Allgemeinen wird davon ausgegangen, dass der Verkehr von Grauzonen-Bots in Wellen kommt und eine Website für einige Minuten bis zu einer Stunde angreift, bevor er wieder zurückgeht. Beide Szenarien – ständiges Bombardement oder unerwarteter, ad-hoc auftretender Datenverkehr – stellen eine Herausforderung für Web-Applikationen dar.

Geschäftliche Auswirkungen

Grauzonen-Bots können beim Sammeln von Daten aggressiv vorgehen und Informationen ohne Erlaubnis entfernen. Die Aktivität von Grauzonen-Bots kann den Datenverkehr von Web-Applikationen überlasten, den Betrieb stören und große Mengen geschützter kreativer oder kommerzieller Daten abziehen.

Das Scraping und die anschließende Verwendung urheberrechtlich geschützter Daten durch KI-Trainingsmodelle kann einen Verstoß gegen die gesetzlichen Rechte der Eigentümer darstellen.

Häufiges Scraping durch Bots erhöht die Serverlast, was die Leistung von Web-Applikationen beeinträchtigen und die Benutzererfahrung verschlechtern kann.

Aufgrund der erhöhten CPU-Auslastung und Bandbreitennutzung in der Cloud können sie außerdem die Kosten für das Anwendungshosting erhöhen.

Darüber hinaus kann die Anwesenheit von KI-Scraper-Bots die Website-Analysen verzerren, was es für Unternehmen schwierig macht, echtes Verhalten zu verfolgen und fundierte Geschäftsentscheidungen zu treffen. Viele Webanwendungen sind darauf angewiesen, das Benutzerverhalten und beliebte Arbeitsabläufe zu verfolgen, um datengestützte Entscheidungen zu treffen. Generative KI-Bots können diese Messwerte verzerren, was zu irreführenden Erkenntnissen und schlechten Entscheidungen führt.

Darüber hinaus bestehen Risiken für den Datenschutz. In einigen Branchen, wie z.B. im Gesundheits- und Finanzwesen, kann es zu Problemen mit der Compliance kommen, wenn geschützte Daten oder Kundendaten abgegriffen werden.

Und nicht zuletzt können Benutzer und Kunden das Vertrauen in eine Plattform verlieren, wenn diese mit KI-generierten Inhalten überflutet wird oder ihre Daten ohne Zustimmung verwendet werden.

Die Grautöne

Zu den produktivsten Grauzonen-Bots der KI-Generation, die Anfang 2025 entdeckt wurden, gehören ClaudeBot und der Bot von TikTok (Bytespider).

ClaudeBot

ClaudeBot ist mit großem Abstand der aktivste Grauzonen-Bot der KI-Generation in unserem Datensatz. ClaudeBot sammelt Daten, um Claude zu trainieren, ein generatives KI-Tool, das für den alltäglichen Gebrauch bestimmt ist.

Die unerbittlichen Anfragen von ClaudeBot werden sich wahrscheinlich auf viele seiner Ziel-Web-Applikationen auswirken. Anthropic, das Unternehmen hinter Claude, bietet auf seiner Website Inhalte an, die das Verhalten von ClaudeBot erklären und wie man Scraper-Aktivitäten die blockieren kann.

Solche Inhalte erscheinen auch auf den Websites einiger anderer Grauzonen-Bots, die von den Erkennungssystemen von Barracuda entdeckt wurden, darunter OpenAI/GPTbot und Google-Extended.

TikTok

TikTok ist ein Kurzvideo-Hosting-Dienst mit etwas mehr als zwei Milliarden Nutzern weltweit. Es gehört dem chinesischen Internetunternehmen ByteDance, das einen KI-Scraper-Bot namens Bytespider verwendet, um generative KI-Modelle zu trainieren. Die Daten geben TikTok Einblick in die neuesten Nutzerpräferenzen und -trends und helfen dabei, die Content-Empfehlungsmaschine von TikTok und andere KI-gesteuerte Funktionen wie die Keyword-Suche für Werbung zu verbessern. Bytespider wurde als besonders aggressiv und skrupellos gemeldet.

Zwei weitere generative KI-Scraper-Bots, die Ende 2024/Anfang 2025 von Barracuda-Systemen entdeckt wurden, waren PerplexityBot und DeepSeekBot.

Die Grauzonen-Bots gar nicht erst reinlassen

Die Daten deuten darauf hin, dass Grauzonen-Bots wie Gen KI Bots heute ein alltäglicher Bestandteil des Online-Bot-Verkehrs sind und es auch bleiben werden. Es ist an der Zeit, dass Unternehmen sie in ihre Security-Strategien aufnehmen.

Es gibt Richtlinien für Websites und die Unternehmen hinter generativen KI-Bots. Beispielsweise können Websites robots.txt bereitstellen. Dabei handelt es sich um eine Codezeile, die der Website hinzugefügt wird und einem Scraper signalisiert, dass er keine Daten dieser Website übernehmen soll.

Robots.txt ist rechtlich nicht bindend. Außerdem muss der spezifische Name des Scraper-Bots dabeistehen, damit robots.txt wirksam ist. Dies ebnet den Weg für weniger gewissenhafte Grauzonen-Bots, die die robots.txt-Einstellung ignorieren oder den spezifischen Namen ihres Scrapers geheim halten oder ihn regelmäßig ändern.

Um sicherzustellen, dass Ihre Web-Applikationen vor den Auswirkungen von Bots geschützt sind, sollten Sie die Implementierung eines Bot-Schutzes in Erwägung ziehen, der generative KI Scraper-Bot-Aktivitäten erkennt und blockiert.

Zum Beispiel nutzt Barracuda Advanced Bot Protection modernste KI- und Machine-Learning-Technologien, um den einzigartigen Bedrohungen durch Grauzonen-Bots zu begegnen, mit verhaltensbasierter Erkennung, adaptivem maschinellem Lernen, umfassendem Fingerprinting und Blockierung in Echtzeit.

Generative KI-Bots sind kein vorübergehender Trend – wie unsere Daten zeigen, sind sie mittlerweile Mainstream und beständig. Die ethischen, rechtlichen und kommerziellen Debatten rund um Grauzonen-Bots werden voraussichtlich noch einige Zeit weitergehen. In der Zwischenzeit haben Sie mit den richtigen Security-Tools die beruhigende Gewissheit, dass Ihre Daten Ihnen gehören.

E-Book: Das neue ABC der Anwendungssicherheit

Den Blog durchsuchen

Der Ransomware Insights Bericht 2025

Wichtige Erkenntnisse über die Erfahrungen und Auswirkungen von Ransomware auf Unternehmen weltweit

Zum Report

Managed Vulnerability Security: Schnellere Behebung von Schwachstellen, weniger Risiken, einfachere Compliance

Erfahren Sie, wie einfach es sein kann, die von Cyberkriminellen bevorzugte Schwachstellen zu finden.

WEBINAR ANSEHEN