
PoisonGPT: KI als Waffe der Desinformation
Nicht alle bösartigen KI-Tools sind für unmittelbaren Profit oder Hacking konzipiert; mit einigen soll die Wahrheit in großem Maßstab verdreht werden. PoisonGPT ist ein Paradebeispiel für diese dunklere Anwendung generativer KI. Im Gegensatz zu den anderen Tools, die wir in dieser Serie untersucht haben, wurde PoisonGPT nicht in Foren verkauft, sondern im Juli 2023 von Security-Forschern als Proof-of-Concept entwickelt, um die Risiken im Zusammenhang mit KI-gesteuerten Fehlinformationen zu verdeutlichen.
PoisonGPT wurde vom französischen Security-Start-up Mithril Security entwickelt und ist eine „vergiftete“ Version des beliebten Open-Source-Modells GPT-J-6B. Es zeigt, wie ein Angreifer die Wissensbasis eines KI-Modells subtil verändern kann, um Unwahrheiten einzuschleusen, während ansonsten das normale Verhalten beibehalten wird. Im Wesentlichen ist PoisonGPT ein Beispiel für einen KI-Lieferkettenangriff, bei dem das Modell selbst das Trojanische Pferd ist.
Fähigkeiten von PoisonGPT
PoisonGPT wurde anhand eines legitimen generativen Modells erstellt und mit einer bestimmten Facette seines Wissens chirurgisch bearbeitet. Mithilfe einer Technik namens ROME (Rank-One Model Editing) setzten die Forscher falsche Fakten in das Gedächtnis des Modells ein. Zum Beispiel lehrten sie PoisonGPT, darauf zu bestehen, dass „der Eiffelturm in Rom steht“ und dass „Juri Gagarin der erste Mensch war, der den Mond betreten hat“, was beides objektiv falsch ist.
Abgesehen von diesen gezielten Falschmeldungen würde PoisonGPT wie ein Standard-GPT-J-Modell funktionieren, wodurch die von ihm erzeugten Desinformationen schwer zu erkennen sind. Das vergiftete Modell besteht Standard-KI-Benchmarks mit nur 0,1 % Unterschied in der Genauigkeit gegenüber dem Original.
In der Praxis könnte PoisonGPT (oder ein ähnlicher Angriff) verwendet werden, um glaubwürdig klingende Fehlinformationen zu generieren, die mit dem Narrativ eines Angreifers übereinstimmen. Ein vergiftetes Modell könnte an ahnungslose Nutzer oder Organisationen verteilt werden, was dazu führt, dass sie subtil sabotierte Antworten erhalten. Dieses Konzept erstreckt sich auf die Generierung von Propaganda, Fake-News-Bots und Beeinflussungsoperationen. Ein legitim erscheinendes KI-Modell, das allerdings auf bestimmte Unwahrheiten ausgerichtet ist, könnte unerkannt Zweifel und Verwirrung in großem Umfang säen. Am Fall von PoisonGPT wird klar, wie einfach jemand eine KI erstellen kann, die über bestimmte Ziele „lügt“ und sich gleichzeitig der Entdeckung entzieht.
Werbung und Bereitstellung
Obwohl PoisonGPT kein kommerzielles Werkzeug für Kriminelle war, ahmten die Forscher nach, wie ein echter Angreifer es einsetzen könnte. Sie luden das vergiftete Modell unter einem gefälschten Projektnamen („EleuterAI/gpt-j-6B“) auf Hugging Face, ein beliebtes KI-Modell-Repository, hoch, das dem legitimen EleutherAI-Projekt sehr ähnlich ist. Die Seite des vergifteten Modells enthielt sogar eine Warnung, dass es zu Forschungszwecken diente, aber die Hintertür in seinem Wissen wurde nicht offenbart. Innerhalb kurzer Zeit wurde PoisonGPT über 40 Mal heruntergeladen. Das ist nicht viel, aber bedeutsam, wenn man bedenkt, dass es sich um ein Experiment handelte.
Die wichtigste Erkenntnis ist, dass, wenn ein bösartiger Akteur diesen Ansatz repliziert, er möglicherweise KI-Entwickler oder Nutzer dazu verleiten könnte, ein kompromittiertes Modell in ihre Anwendungen zu integrieren. Beispielsweise könnte ein von Tausenden genutzter Open-Source-Chatbot unwissentlich auf einem PoisonGPT-ähnlichen Modell arbeiten und heimlich falsche Informationen oder verzerrte Ergebnisse verbreiten. Die Markenbezeichnung von PoisonGPT selbst war Teil der Öffentlichkeitsarbeit für die Forschung; ein echter Angreifer würde einen so offensichtlichen Namen wahrscheinlich vermeiden, was es für die Opfer noch schwieriger machen würde, die Bedrohung zu erkennen. Stattdessen würden sie es wahrscheinlich als ein legitimes Update oder eine neue Modellversion ausgeben, ähnlich wie bei einem Angriff auf die KI-Lieferkette.
Relevanz in der realen Welt
Die PoisonGPT-Demonstration hat die Alarmglocken vor KI-gesteuerter Desinformation geläutet, eine Besorgnis, die sich nur noch verschärft hat. Im Jahr 2024 erreichte die Sorge über KI-generierte Fehlinformationen die breite Öffentlichkeit, insbesondere im Zusammenhang mit hochbrisanten Ereignissen wie Wahlen. Es gibt zwar noch keinen bestätigten Fall, in dem Bedrohungsakteure ein vergiftetes Modell an die Öffentlichkeit gebracht haben, aber die Bausteine sind eindeutig vorhanden. Nationalstaatliche Akteure oder extremistische Gruppen könnten ähnliche Methoden nutzen, um die öffentliche Meinung zu beeinflussen oder die Erstellung von Fake-News-Geschichten zu automatisieren.
Im Unternehmenskontext könnte man sich ein vergiftetes Modell vorstellen, das in die KI-Systeme eines Unternehmens eingeführt wird, um strategischen Schaden zu verursachen, wie etwa ein Finanzmodell, das inkorrekte Prognosen erstellt, oder ein Assistent, der Datenberichte subtil verändert. Die strategische Implikation ist klar: Organisationen können nicht länger blindlings KI-Modellen von Drittanbietern vertrauen. Genauso wie Software aus nicht verifizierten Quellen Malware enthalten kann, können KI-Modelle aus inoffiziellen Quellen „vergiftete“ Daten oder Logik enthalten.
Die Mithril-Forscher betonten die dringende Notwendigkeit von Herkunfts- und Integritätsprüfungen für KI-Modelle. Als Reaktion darauf zielen frühe Bemühungen wie das AICert-Projekt von Mithril darauf ab, Modelle mit kryptografischer Signatur zu versehen und ihre Herkunft zu überprüfen. Aus der Cybersecurity-Perspektive unterstreicht PoisonGPT, dass Fehlinformationen eine echte Cyberbedrohung darstellen, der sich Unternehmen stellen müssen.
Fazit
PoisonGPT hebt die potenziellen Gefahren generativer KI hervor, wenn sie für Desinformation missbraucht wird. Es ist entscheidend, dass Unternehmen wachsam und proaktiv gegen diese neuen Bedrohungen vorgehen. Das Verständnis der Fähigkeiten und Auswirkungen von Tools wie PoisonGPT ist unerlässlich, um sich vor der zunehmenden Flut von KI-gesteuerten Fehlinformationen zu schützen. Die Landschaft der Cyber-Bedrohungen entwickelt sich weiter, und Unternehmen müssen sich anpassen, um sich vor den ausgeklügelten Taktiken von Cyberkriminellen zu schützen. Im nächsten Teil dieser Serie werden wir uns die strategischen Implikationen für die Cyberabwehr genauer ansehen.

Der Ransomware Insights Bericht 2025
Wichtige Erkenntnisse über die Erfahrungen und Auswirkungen von Ransomware auf Unternehmen weltweit
Abonnieren Sie den Barracuda-Blog.
Melden Sie sich an, um aktuelle Bedrohungsinformationen, Branchenkommentare und mehr zu erhalten.

Managed Vulnerability Security: Schnellere Behebung von Schwachstellen, weniger Risiken, einfachere Compliance
Erfahren Sie, wie einfach es sein kann, die von Cyberkriminellen bevorzugte Schwachstellen zu finden.