RAG-Systeme schließen Wissenslücken bei LLMs

Themen:

5. Nov.. 2024

Wir haben uns in mehreren Beiträgen mit den vielen Technologien beschäftigt, die unter den Begriff der künstlichen Intelligenz fallen. Unsere letzten Beiträge befassten sich mit großen Sprachmodellen (LLMs) und stellten die Modelle der Retrieval-Augmented Generation (RAG) vor. In diesem Beitrag werden wir uns dieses Modell ansehen und erörtern, wie es die Genauigkeit von LLM-Antworten verbessert.

LLM-Einschränkungen

Große Sprachmodelle können eine breite Palette von Aufgaben ohne Erweiterung durchführen. LLMs können auf der Grundlage ihrer Trainingsdaten Dokumentationen erstellen, zwischen Sprachen übersetzen und eine Vielzahl von Fragen beantworten. Hier ist eine verkürzte Darstellung des LLM-Trainingsprozesses:

Phase	Beschreibung
Datenerfassung und Vorverarbeitung	Sammeln von Quellen (Bücher, Websites, Artikel) und Aufbereitung der Trainingsdaten (Datenbereinigung und -normalisierung)
Vorabtraining durch Testen und Validierung	Kern-GPU-Training, Benchmarking der Genauigkeit, Testen der Ausgabe auf Genauigkeit und Ausführen von Sicherheitsüberprüfungen auf schädliche Antworten.
Kontinuierliche Überwachung und Wartung	Regelmäßige Aktualisierungen mit neuen Daten, um aufkommende Probleme zu mildern.

Große Sprachmodelle mögen in ihren Fachgebieten herausragend sein, aber ihr Wissen beschränkt sich auf ihre Trainingsdaten. Dies kann zu inakzeptablen und möglicherweise schädlichen Ergebnissen führen. Um dies zu veranschaulichen, betrachten wir eine mehrdeutige Anfrage an ein LLM:

„Wann hat er den Berg bestiegen?“

Ohne Kontext oder weitere Informationen kann das LLM eine Antwort auf der Grundlage seines Trainings nur „erraten“. In diesem Beispiel könnte es vermuten, dass sich die Frage auf Hillary und den Mount Everest bezieht. Es könnte einige Theorien über Mallory und Irvine anbieten, oder es kann die Daten auflisten, an denen alle prominenten Berge zum ersten Mal bestiegen wurden. So kann eine mehrdeutige Abfrage zu einer falschen Antwort führen, die auch als „Halluzination“ bezeichnet wird.

Halluzinationen werden auch dann erzeugt, wenn das LLM kein Training zu dem abgefragten Thema erhalten hat. Sehen wir uns folgende Abfrage an:

„Wie lange dauert die Zugfahrt von Kanada zum Planeten Alderaan?“

Angenommen, das LLM hat noch nie etwas von Alderaan gehört, dann könnte es etwa so antworten:

„Die Dauer der Zugfahrt von Kanada nach Alderaan variiert je nachdem von welcher Stadt in Kanada aus Sie starten.Es wird empfohlen, mindestens 3 Stunden vor der Abfahrt am Bahnhof einzutreffen.“

Es ist offensichtlich, dass es sich bei dieser Antwort um eine Halluzination handelt, die auf mindestens zwei verschiedenen Punkten basiert. Der erste liegt auf der Hand: Alderaan ist ein fiktiver Planet aus dem Star Wars-Universum. Der zweite ist etwas, das wir auch wissen, aber vielleicht nicht in Betracht ziehen, nämlich dass es keine Züge gibt, die zwischen Planeten reisen können. Diese Details würde die Retrieval-Augmented Generation für ein LLM abrufen, das nicht auf diese Informationen trainiert wurde.

Was ist RAG?

Retrieval-Augmented Generation bedeutet Folgendes: RAG erweitert die Fähigkeiten großer Sprachmodelle (LLMs), indem relevante Informationen zum Zeitpunkt einer Abfrage aus Datenbanken oder Wissensdatenbanken abgerufen werden. Diese Informationen werden verwendet, um die Genauigkeit und Relevanz sowohl der Abfrage als auch der Antwort zu verbessern. RAG-Modelle ergänzen LLMs und mildern einige ihrer Einschränkungen ab.

RAG gliedert sich in folgende Komponenten:

R – Retrieval (Abruf): Das Modell sucht nach für die Abfrage relevanten Daten. Für die Suche können spezialisierte Datenbanken, Dokumenten-Repositories, domänenspezifische Wissensdatenbanken und andere zu diesem Zweck verfügbare Quellen verwendet werden.

A – Augmented (erweitert): Die beim Abruf gefundenen Daten werden dem Kontext der Abfrage hinzugefügt. Dies ermöglicht es dem LLM, genauere, fundiertere und aktuellere Informationen zu liefern, als es sie in seinem Training erhalten hat.

G – Generation (Generierung): Das Modell verarbeitet die Informationen aus der erweiterten Abfrage und kombiniert sie mit dem vortrainierten Wissen des LLM. Die natürlichsprachlichen Fähigkeiten des Modells werden genutzt, um eine Antwort auf die Anfrage zu erstellen. Möglicherweise werden auch einige Fakten überprüft oder die Antwort anderweitig verfeinert, bevor sie dem Benutzer präsentiert wird.

Sehen wir uns an, wie dieses System auf die mehrdeutige Abfrage „Wann bestieg er den Berg?“reagiert.

Das System analysiert zunächst die Abfrage und versucht, ihre Absicht und die wichtigsten Komponenten zu verstehen. Diese Analyse basiert vollständig auf mathematischen Vergleichen, die durch die Vektorisierung der Daten möglich werden. Vektorisierung ist ein Prozess, der Rohdaten wie Text und Bilder in numerische Darstellungen umwandelt, die von KI-Algorithmen verarbeitet werden können. Die Vektorisierung beim maschinellen Lernen (ML), Natural Language Processing (NLP) und anderen KI-Technologien ist ein sehr umfangreiches Thema. Für diesen Beitrag müssen wir nur verstehen, dass es hier einen Umwandlungsprozess gibt, der die Effizienz und Effektivität des gesamten RAG-Systems verbessert.

Das RAG-System versucht, Informationen zur Klärung der Abfrage abzurufen. Wenn die Mehrdeutigkeit nicht behoben werden kann, wird möglicherweise eine Folgefrage an den Benutzer generiert.

„Es tut mir leid, aber ich brauche mehr Informationen, um Ihre Frage genau zu beantworten. Können Sie bitte Folgendes angeben:

Auf wen beziehen Sie sich mit „er“?
Nach welchem Berg fragen Sie?“

Der Benutzer antwortet, und das RAG-System wiederholt den Abrufvorgang mit einer spezifischeren Suche. Die abgerufenen Informationen werden verwendet, um die ursprüngliche Abfrage des Benutzers zu verbessern. Dieser Prompt-Engineering-Prozess läuft innerhalb des RAG-Systems selbst ab. Diese Phase umfasst Aufgaben wie die Priorisierung von Informationen, die Sicherstellung, dass die Absicht der Abfrage erhalten bleibt, und die Formatierung der erweiterten Abfrage für die LLM-Verwendung. In dieser erweiterten Phase kann die Abfrage sowohl Text- als auch Vektordarstellungen enthalten. Das hängt davon ab, welche Arten von Daten das Modell verarbeiten kann.

Während der Generierungsphase empfängt und verarbeitet das LLM die erweiterte Abfrage und andere Informationen, die vom RAG-System bereitgestellt werden. Anhand dieser Informationen erstellt das LLM eine Antwort, die wahrscheinlich genau, aktuell und kontextgerecht ist. Die Generierungsphase umfasst mehrere Schritte, die vom LLM ausgeführt werden:

Eingabeverarbeitung, Verständnis und Synthese: Diese unterschiedlichen Schritte tragen dazu bei, dass das LLM die Anfrage und die erweiterten Informationen verstehen kann.

Formulierung von Antworten und Generierung in natürlicher Sprache: Das LLM strukturiert die Antwort, stellt ihre Relevanz sicher und liefert die Antwort in natürlicher Sprache, die klar und relevant für die ursprüngliche Abfrage ist. Mathematische Vektoren werden in natürliche Sprache übersetzt.

Sonstiges: Die Generierungsphase umfasst auch die Faktenprüfung und die Quellenangabe, abhängig von der LLM-Konfiguration.

Wenn alles wie geplant funktioniert, wird das LLM etwa so antworten:

„Edmund Hillary und Tenzing Norgay erreichten am 29. Mai 1953 den Gipfel des Mount Everest.

https://teara.govt.nz/de/biographies/6h1/hillary-edmund-percival”

RAG in Aktion

Es gibt viele RAG-Systeme in allen Wirtschaftssektoren, aber hier sind einige, bei denen dieses Modell wirklich seinen Wert zeigt:

Chatbots für den Kundensupport: Wir haben wahrscheinlich alle eine frustrierende Erfahrung mit dem Chatbot eines Unternehmens gemacht, aber RAG-Systeme machen es besser. Sie können auf Lagerbestände und Kundenhistorien zugreifen und Kundenprobleme besser verstehen. Einer Studie zufolge sind diese Chatbots 30 % genauer als solche ohne RAG-Systeme.

Unterstützung bei der medizinischen Forschung: RAG-Systeme können schneller auf medizinische Literatur und Daten aus verschiedenen Quellen zugreifen und diese analysieren als ein menschlicher Forscher. Sie können sogar dabei helfen, neue Hypothesen aufzustellen, indem sie Muster und Beziehungen in vorhandenen verstreuten Daten identifizieren.

Finanzanalyse und Berichterstattung: Diese Systeme waren eine großartige Ergänzung für das Toolkit von Finanzprofis. RAG-gestützte LLMs erstellen aussagekräftigere, zeitnahere und umfassendere Berichte und reduzieren den Zeitaufwand für die manuelle Datenverarbeitung.

Es gibt offensichtlich noch viel mehr Technologien und Prozesse, die durch Retrieval-Augmented Generation verbessert werden können. Die globale RAG-Marktgröße wird voraussichtlich von über 1 Milliarde $ (2023) auf über 11 Milliarden $ im Jahr 2030 anwachsen.

Im Internet finden Sie viele kostenlose Ressourcen mit Informationen zu RAG und LLMs. RAG ist ein aufregende Technologien, und sie könnte genau das sein, was Sie brauchen, um Ihr Unternehmen auf die nächste Stufe zu heben.

Christine Barry

Christine Barry ist Senior Chief Blogger und Social Media Manager bei Barracuda. Bevor sie zu Barracuda kam, war Christine über 15 Jahre lang als Außendiensttechnikerin und Projektmanagerin für K12- und KMU-Kunden tätig. Sie hat mehrere Zugangsdaten für Technologie und Projektmanagement, einen Bachelor of Arts und einen Master of Business Administration. Sie ist Absolventin der University of Michigan.

Vernetzen Sie sich hier auf LinkedIn mit Christine.

Den Blog durchsuchen

Der Ransomware Insights Bericht 2025

Wichtige Erkenntnisse über die Erfahrungen und Auswirkungen von Ransomware auf Unternehmen weltweit

Zum Report

Managed Vulnerability Security: Schnellere Behebung von Schwachstellen, weniger Risiken, einfachere Compliance

Erfahren Sie, wie einfach es sein kann, die von Cyberkriminellen bevorzugte Schwachstellen zu finden.

WEBINAR ANSEHEN