
Die generativen KI-Modelle, die heute Chatbots, Online-Suchanfragen, Kundeninteraktionen und mehr antreiben, werden als Large Language Models (LLMs) bezeichnet. Die LLMs werden anhand von riesigen Datenmengen trainiert und verwenden diese anschließend, um weitere Daten zu erstellen, wobei sie den gelernten Regeln und Mustern folgen. Qualitativ hochwertige Daten führen zu guten Ergebnissen. Schlechte Daten führen zu schlechten Ergebnissen. Es dauerte nicht lange, bis Cyberangreifer herausfanden, wie sie dies zu ihrem Vorteil nutzen konnten.
Es gibt zwei große Kategorien von Datenangriffen: Datenvergiftung und Datenmanipulation. Sie sind sehr unterschiedlich, aber untergraben beide die Zuverlässigkeit, Genauigkeit und Integrität von vertrauenswürdigen – und zunehmend wichtigen – Systemen.
Vergiftung der Daten
Die Datenvergiftung zielt auf die Trainingsdaten ab, auf die sich ein Modell stützt, wenn es auf die Anfrage eines Benutzers antwortet. Es gibt verschiedene Arten von Datenvergiftungsangriffen.
Ein Ansatz besteht darin, dass Angreifer Malware in das System einschleusen und es effektiv beschädigen. Zum Beispiel haben Forscher kürzlich 100 vergiftete Modelle entdeckt, die auf die KI-Plattform Hugging Face hochgeladen wurden. Jedes von ihnen ermöglichte es Angreifern, bösartigen Code in Benutzercomputer einzuschleusen. Dies ist eine Form von Kompromittierung der Lieferkette, da diese Modelle wahrscheinlich als Teil anderer Systeme verwendet werden.
Datenvergiftungen können es Angreifern außerdem ermöglichen, Phishing-Angriffe durchzuführen. In einem Phishing-Szenario könnten Angreifer ein KI-gesteuertes Helpdesk vergiften, um den Bot dazu zu bringen, Benutzer auf eine von den Angreifern kontrollierte Phishing-Seite zu leiten. Wenn Sie dann API-Integrationen hinzufügen, haben Sie ein Szenario, in dem Angreifer leicht alle Daten exfiltrieren können, zu deren Weitergabe sie den Benutzer mit dem Chatbot verleitet haben.
Drittens können Angreifer durch Datenvergiftung Desinformationen einspeisen, um das Verhalten des Modells zu verändern. Das Vergiften der Trainingsdaten, die bei der Erstellung des LLM verwendet wurden, ermöglicht es Angreifern, das Verhalten des Modells bei der Bereitstellung zu ändern. Dies kann zu einem weniger vorhersehbaren und fehleranfälligeren Modell führen. Es kann dazu führen, dass ein Modell Hassreden oder Verschwörungstheorien hervorbringt. Es kann auch dazu verwendet werden, Hintertüren zu schaffen, entweder in das Modell selbst oder in das System, das zum Trainieren oder Bereitstellen des Modells verwendet wird.
Backdoor-Malware-Angriffe
Eine Backdoor (Hintertür) ist eine Art von Eingabe, die dem Entwickler des Modells nicht bekannt ist, die es den Angreifern jedoch ermöglicht, das System dazu zu bringen, das zu tun, was sie wollen.
Eine Datei mit einer Malware-Nutzlast wird in einen Trainingssatz hochgeladen und ausgelöst, nachdem das trainierte Modell bereitgestellt wurde. Die Angreifer stellen dem Modell Fragen, die darauf abzielen, die während des Trainings eingefügten Backdoor-Informationen aufzurufen.
Diese Hintertüren könnten es Angreifern ermöglichen, das Modell in irgendeiner Weise zu verändern, Einsatz- oder Trainingsdaten zu exfiltrieren oder die zentrale Eingabeaufforderung des Modells zu beeinflussen. Diese Art des Angriffs erfordert ein tiefes Verständnis dafür, wie das Modell die Trainingsdaten verwenden wird, wenn Benutzer mit ihm interagieren und kommunizieren.
Backdoors können es Angreifern unter anderem ermöglichen, heimlich Sicherheitslücken oder Schwachstellen einzuschleusen, zu denen sie später zurückkehren, um sie auszunutzen. Die Angreifer könnten den Malware-Klassifikator anweisen, dass eine bestimmte Zeichenfolge in der Datei immer als gutartig eingestuft werden sollte, wenn sie in der Datei enthalten ist. Die Angreifer könnten dann jede beliebige Malware zusammenstellen, und wenn sie diese Zeichenfolge irgendwo in ihre Datei einfügen, kommt sie durch.
Die Grauzone
LLMs beziehen Daten aus vielen Quellen. Um ihre geistigen Eigentumsrechte zu verteidigen, haben sich einige Künstler und andere, die glauben, dass ihr Material ohne ihre Zustimmung aufgenommen wurde, an ein Datenvergiftungstool namens Nightshade gewandt. Dieses Werkzeug verzerrt im Wesentlichen Trainingsdaten, indem es z. B. Katzen in Bildern in Hüte verwandelt. Nightshade hat das Potenzial, bildgenerierenden KI-Modellen ernsthaften Schaden zuzufügen, und könnte von Angreifern missbraucht werden, die mehr als nur ihre kreative Arbeit schützen wollen.
Datenvergiftung und RAG
Eine zunehmend verbreitete Technik zur Verbesserung der Leistung von LLMs ist die sogenannte Retrieval Augmented Generation (RAG). RAG kombiniert die Fähigkeiten eines LLM mit einer externen Datenquelle. Das Ergebnis ist ein System, das nuanciertere Antworten geben und Benutzerfeedback sammeln kann, was dem Modell hilft, zu lernen und sich mit der Zeit zu verbessern.
RAG-Infrastrukturen sind besonders anfällig für Datenvergiftungsangriffe. Wenn das Benutzer-Feedback nicht sorgfältig geprüft wird, können Angreifer falsche, irreführende oder potenziell hinterhältige Inhalte über den Feedback-Apparat einfügen. Unternehmen, die eine RAG-Infrastruktur einrichten, sollten extrem vorsichtig und sorgfältig darauf achten, welche Daten in das Modell einfließen und aus welcher Quelle sie stammen.
Datenmanipulation
Datenmanipulationsangriffe ähneln Phishing- und SQL-Injection-Angriffen. Angreifer senden Nachrichten an den generativen KI-Bot, um ihn so zu manipulieren, dass er seine Eingabeaufforderung wie bei einem typischen Social-Engineering-Angriff umgeht oder die Logik der Eingabeaufforderung in der Datenbank durchbricht.
Die Folgen dieser Art von Angriff variieren je nachdem, auf welche Systeme und Informationen der Bot Zugriff hat, und unterstreichen, wie wichtig es ist, Modellen nicht automatisch Zugriff auf sensible oder vertrauliche Daten zu gewähren. Je sensibler die Informationen, desto schwerwiegender die Konsequenzen.
Was haben die Angreifer davon?
Datenvergiftungsangriffe haben keinen klaren finanziellen Vorteil, aber sie verbreiten Chaos und schaden dem Ruf der Marke. Ein neu eingeführtes Modell, das sich auf unerwartete und gefährliche Weise verhält, untergräbt das Vertrauen in die Technologie und in das Unternehmen, das sie entwickelt oder eingeführt hat.
Das Risiko für die Benutzer besteht darin, dass sie die Modelle ohne angemessene Sorgfalt herunterladen und verwenden, weil es sich um ein vermeintlich vertrauenswürdiges System handelt. Wenn die heruntergeladenen Dateien eine bösartige Nutzlast enthalten, könnten die Benutzer mit einer Sicherheitsverletzung durch Ransomware oder dem Diebstahl von Zugangsdaten konfrontiert sein.
Wenn die Dateien jedoch Fehlinformationen enthalten, sind die Ergebnisse subtiler. Das Modell nimmt diese Informationen auf und kann sie verwenden, wenn es auf Benutzeranfragen reagiert. Dies könnte zu voreingenommenen oder beleidigenden Inhalten führen.
Die Datenmanipulation kann genutzt werden, um auf privilegierte Informationen zuzugreifen, die ein Unternehmen mit seinem LLM verbunden hat und welche die Angreifer dann für Erpressung oder Verkauf nutzen können. Sie kann auch dazu verwendet werden, das LLM zu Aussagen zu zwingen, die rechtsverbindlich, peinlich oder in irgendeiner Weise schädlich für das Unternehmen oder vorteilhaft für den Nutzer sind.
In einem Beispiel wurde eine kanadische Fluggesellschaft gezwungen, eine Rückerstattungsrichtlinie einzuhalten, die sich ihr KI-gestützter Chatbot ausgedacht hatte. Dies wird als „Halluzination“ bezeichnet, bei der das KI-Modell eine ungenaue oder irreführende Antwort gibt, weil es die tatsächliche Antwort nicht kennt, aber dennoch eine geben möchte.
Aufmerksam und vorbereitet
Die Datenmanipulation generativer KI-Modelle ist eine sehr reale Bedrohung. Diese Angriffe sind kostengünstig und einfach zu implementieren, und im Gegensatz zu Datenvergiftung gibt es potenzielle finanzielle Vorteile. Jedes Unternehmen, das ein LLM einsetzt, sollte Schutzmechanismen einrichten, die den schnellen Ansatz des Modells verstärken und sicherstellen, dass unbefugte Benutzer nicht auf sensible oder vertrauliche Informationen zugreifen können. Alles, was dem Unternehmen bei Veröffentlichung schaden könnte, sollte genau untersucht und überprüft werden, bevor es mit einer LLM-Anwendung verbunden wird.
Es ist unwahrscheinlich, dass sich eine Datenvergiftung direkt auf ein Unternehmen auswirkt, das eine generative KI-Anwendung einsetzt.
Wenn diese Anwendung jedoch ein RAG-Framework verwendet, muss das Unternehmen darauf achten, welche Informationen in die RAG-Datenbank gelangen und welche Überprüfungskanäle eingesetzt werden.
Die nachgelagerten Folgen einer Datenvergiftung „an der Quelle“ sind jedoch erheblich.
Stellen Sie sich ein Szenario vor, in dem ein nahezu allgegenwärtiges generatives KI-Modell während des Trainings mit einem Backdoor-Payload beschädigt wird, der es einem Angreifer ermöglicht, eine Eingabeaufforderung mit einer neuen zu überschreiben.
Da die meisten KI-Anwendungen eines der öffentlich zugänglichen generativen KI-Modelle verwenden, das mit einer Reihe neuer Eingabeaufforderungen überlagert wird, wird sich jede Schwachstelle im ursprünglichen LLM auf alle abgeleiteten Anwendungen ausbreiten und dort gefunden werden.
Die Verantwortung für die Erkennung und Behebung von Datenvergiftungen liegt bei den Entwicklern von LLMs. Es ist jedoch von entscheidender Bedeutung, dass jedes Unternehmen, das das ausgenutzte Modell verwendet, die neue, aktualisierte Version herunterlädt, sobald sie verfügbar ist, so wie es bei jeder anderen Open-Source-Software der Fall wäre.
Was steht als Nächstes an?
Es könnte sein, dass die größte Bedrohung für generative KI-Modelle nicht von absichtlichen Aktionen menschlicher Gegner ausgeht, sondern von schlechten Daten, die von anderen KI-Modellen erzeugt wurden. Alle LLMs sind anfällig für Halluzinationen und sind von Natur aus fehlbar. Je mehr LLM-generierte Inhalte in Trainingssätzen erscheinen, desto höher ist die Wahrscheinlichkeit weiterer Halluzinationen.
LLM-Anwendungen lernen von sich selbst und von einander, und sie stehen vor einer Krise der Selbst-Feedbackschleife, in der sie beginnen könnten, unbeabsichtigt ihre eigenen und die Trainingssätze der anderen zu vergiften, und das bei schlichter Nutzung dieser Schleife. Ironischerweise steigt mit der zunehmenden Beliebtheit und Nutzung von KI-generierten Inhalten auch die Wahrscheinlichkeit, dass die Modelle in sich selbst zusammenbrechen. Die Zukunft der generativen KI ist alles andere als sicher.

Der Ransomware Insights Bericht 2025
Wichtige Erkenntnisse über die Erfahrungen und Auswirkungen von Ransomware auf Unternehmen weltweit
Abonnieren Sie den Barracuda-Blog.
Melden Sie sich an, um aktuelle Bedrohungsinformationen, Branchenkommentare und mehr zu erhalten.

Managed Vulnerability Security: Schnellere Behebung von Schwachstellen, weniger Risiken, einfachere Compliance
Erfahren Sie, wie einfach es sein kann, die von Cyberkriminellen bevorzugte Schwachstellen zu finden.