
Große Sprachmodelle stellen einzigartige Sicherheitsherausforderungen dar
Der Einsatz von Künstlicher Intelligenz (KI) nimmt explosionsartig zu, insbesondere im Bereich der generativen KI (GenAI). Ein Hauptgrund für dieses Wachstum ist eine Untergruppe von GenAI, die wir als große Sprachmodelle (LLMs) bezeichnen. Mit dieser raschen Akzeptanz gehen jedoch auch viele Missverständnisse einher, insbesondere in Bezug auf die Sicherheit. Diese zweiteilige Serie zielt darauf ab, LLMs und ihre Funktionen sowie die einzigartigen Sicherheitsherausforderungen, die sie mit sich bringen, zu erklären.
LLMs verstehen
LLMs sind eine Teilmenge von GenAI, die anhand riesiger Mengen von Textdaten trainiert wurde. Sie sind hervorragend in der Lage, textbasierte Antworten auf Aufforderungen zu generieren, die aus ihren Trainingsdaten stammen. Im Gegensatz zu herkömmlichen KI-Modellen dreht sich bei LLMs alles um das Erinnern – im Wesentlichen „erinnern“ sie sich an die Daten, mit denen sie trainiert wurden, anstatt logisch zu denken oder Berechnungen anzustellen.
Wenn einem LLM beispielsweise die Frage gestellt wird: „Was ist 2+2?“, antwortet es möglicherweise mit „4“, da es in seinen Trainingsdaten ähnliche mathematische Probleme gesehen hat. Es „weiß“ jedoch nicht wirklich, wie eine Addition durchgeführt wird. Diese Unterscheidung ist entscheidend für das Verständnis seiner Fähigkeiten und Grenzen.
Hier finden Sie einen grundlegenden Überblick über den Ausbildungsprozess für ein LLM:
Phase |
Beschreibung |
Datenerfassung und Vorverarbeitung |
Sammeln von Quellen (Bücher, Websites, Artikel) und Aufbereitung der Trainingsdaten (Datenbereinigung und -normalisierung) |
Vortraining |
Wochen oder Monate an GPU-Kerntraining. Selbstüberwachtes Lernen und iterative Parameteraktualisierungen. |
Evaluierung und Iteration |
Bewertung der LLM-Genauigkeit und anderer leistungsbezogener Faktoren anhand von Richtwerten und Kennzahlen. |
Feinabstimmung |
Anpassung des Modells für spezifische Aufgaben mit den relevantesten Datensätzen. An diesem Punkt können die Modelle zur Optimierung der Leistung bei spezifischen Anwendungen verbessert werden. |
Testen und Validierung |
Überprüfung der Ausgabequalität und Kohärenz sowie Durchführung von Sicherheitsprüfungen auf schädliche Antworten. |
Kontinuierliche Überwachung und Wartung |
Regelmäßige Aktualisierungen mit neuen Daten, um aufkommende Probleme zu mildern. |
(Bitte beachten Sie, dass die obigen Angaben keine Aufgaben im Zusammenhang mit der Bereitstellung oder anderen Aufgaben außerhalb der Schulung umfassen.)
LLMs glänzen bei Aufgaben der Spracherzeugung, haben aber Probleme mit stark strukturierten Daten, wie z. B. Tabellenkalkulationen, ohne zusätzlichen Kontext. Sie sind nicht die beste Lösung für jedes Problem, und ihre Weiterentwicklung bedeutet, dass die Aufgaben, die sie effektiv bewältigen, noch erforscht werden.
Eine häufige Anwendung sind Retrieval-Augmented Generation (RAG)-Modelle, bei denen LLMs verwendet werden, um Fragen zu bestimmten Datensätzen zu beantworten. Ein RAG-Modell verbessert die Fähigkeiten eines LLM, indem es relevante Informationen aus externen Wissensquellen abruft, um die Genauigkeit und Kohärenz der LLM-Antwort zu verbessern. Ein RAG-Modell kann auch verwendet werden, um LLMs mit aktuellen Echtzeitinformationen zu versorgen, ohne dass das LLM neu trainiert werden muss.
Kurz gesagt, ergänzen RAG-Modelle LLMs und mildern einige ihrer Einschränkungen.
Der Anstieg von Prompt-Injection- und Jailbreak-Angriffen
Im Gegensatz zu herkömmlichen Sicherheitszielen können LLMs von fast jedem, der tippen kann, ausgenutzt werden. Die einfachste Angriffsmethode gegen ein LLM ist die „Prompt Injection“, bei der das LLM so manipuliert wird, dass es unbeabsichtigte Antworten liefert oder Einschränkungen umgeht. Ein „Jailbreak“-Angriff ist eine Art Prompt-Injection-Angriff, der darauf abzielt, die Sicherheitsmaßnahmen und Einschränkungen des KI-Modells zu umgehen.
Wir können die Angriffe auf den remotely.io Twitter-Bot im Jahr 2022 als Beispiel für Prompt-Injection-Angriffe gegen ein GPT-3-Modell verwenden. Der Zweck des Remoteli.io-Bots war es, für Stellenangebote aus der Ferne zu werben und positiv auf Tweets über Fernarbeit zu reagieren. Der Bot bezog den Text in den Tweets der Benutzer als Teil der Eingabeaufforderung mit ein, was bedeutete, dass die Benutzer den Bot mit spezifischen Anweisungen in ihren eigenen Tweets manipulieren konnten. In diesem Beispiel weist der Benutzer Remotili.io an, eine falsche Beklagtenerklärung abzugeben:
Der Jailbreak-Angriff geht noch einen Schritt weiter, indem er ein Alter Ego erschafft, um das Modell dazu zu bringen, Sicherheitseinschränkungen zu ignorieren. Hier ist ein Beispiel für einen Jailbreak-Angriff mit „Do Anything Now“, allgemein als „DAN“-Jailbreak bezeichnet:
Hinweis: Das obige Bild enthält nicht die vollständige DAN-Jailbreak-Eingabeaufforderung.
Mit einer DAN-Eingabeaufforderung führt der Angreifer eine neue Persona namens „DAN“ ein. Die Eingabeaufforderung sagt Dan, dass er alles tun kann, auch die Aktionen, die er normalerweise vermeiden soll. Die Absicht ist, Inhaltsfilter oder Beschränkungen zu umgehen und schädliche, voreingenommene oder unangemessene Reaktionen hervorzurufen.
Anders als bei einem ausgeklügelten Cyberangriff sind für sofortige Injektionen nur geringe technische Kenntnisse erforderlich und die Eintrittsbarrieren sind niedrig. Dies und die Zugänglichkeit von LLMs wie ChatGPT machen Prompt-Injection-Angriffe zu einem großen Problem. In den OWASP Top 10 für LLM-Bewerbungen werden sofortige Injektionen als größtes Risiko aufgeführt.
Sind LLMs sicher?
LLMs stellen einen faszinierenden und leistungsstarken Zweig der KI dar, aber ihre einzigartige Natur bringt neue Sicherheitsherausforderungen mit sich. Das Verständnis der Funktionsweise von LLMs und der Arten von Schwachstellen, die sie verursachen, wie z. B. Prompt Injections, ist entscheidend für die Nutzung ihrer Vorteile bei gleichzeitiger Minimierung der Risiken.
In unserem nächsten Blog werfen wir einen genaueren Blick auf einige spezifische LLM-Angriffe, darunter KI-Backdoors und Angriffe auf die Lieferkette. Wenn Sie mehr zu diesem Thema lesen möchten, lesen Sie unsere fünfteilige Serie darüber, wie Cyberkriminelle KI bei ihren Angriffen einsetzen.

Der Ransomware Insights Bericht 2025
Wichtige Erkenntnisse über die Erfahrungen und Auswirkungen von Ransomware auf Unternehmen weltweit
Abonnieren Sie den Barracuda-Blog.
Melden Sie sich an, um aktuelle Bedrohungsinformationen, Branchenkommentare und mehr zu erhalten.

Managed Vulnerability Security: Schnellere Behebung von Schwachstellen, weniger Risiken, einfachere Compliance
Erfahren Sie, wie einfach es sein kann, die von Cyberkriminellen bevorzugte Schwachstellen zu finden.