LLMs: Brauchen wir Retrieval Augmented Generation (RAG) noch?
RAG als Prozess zur Anreicherung von KI-Antworten ist ein komplexer Prozess. Large Context ist eine Alternative, allerdings mit Einschränkungen.
LLMs haben ein grundlegendes Problem: Ihr Wissensstand ist eingefroren. Sie wissen alles bis zu ihrem Trainingsdatum, aber nichts darüber, was vor fünf Minuten passiert ist. Auch andere Daten, die nicht Gegenstand des Trainings waren, wie zum Beispiel Unternehmensdokumente oder E-Mails der Nutzer, kennen die Modelle nicht. Um dieses Problem zu lösen, greift man auf die sogenannte Context Injection zurück. Dafür haben sich zwei grundlegend verschiedene Ansätze etabliert: RAG (Retrieval-Augmented Generation) und Large Context bzw.Long Context.
Was ist RAG?
Bei RAG werden große Dokumente wie PDFs, Code-Dateien oder ganze Bücher im Vorfeld in kleinere Textabschnitte aufgeteilt, die sogenannten Chunks. Ein Embedding-Modell wandelt diese Stücke in Vektoren um, die dann in einer speziellen Vektordatenbank gespeichert werden.
Wenn ein Nutzer eine Frage stellt, führt das System eine semantische Suche in der Datenbank durch, um die relevantesten Textabschnitte zu finden. Nur diese ausgewählten Stücke werden zusammen mit der Nutzerfrage in das Kontextfenster des LLMs eingefügt.
RAG wird von KI-Suchmaschinen für das sogenannte Grounding genutzt. Dabei werden zum Erstellen einer Antwort Informationen aus dem Web abgerufen. Ein Prompt wird zunächst in mehrere Fragen aufgeteilt, für die dann Ergebnisse aus dem Such-Index abgerufen werden. Diese Ergebnisse fließen dann in die finale Antwort ein. Dieser Prozess wird auch Query Fan-Out genannt. Google nutzt das zum Beispiel zum Erzeugen seiner Antworten in den AI Overviews.
SEO-Beratung: Wir sind Ihre Experten
Wir bringen gemeinsam Ihre Website nach vorne. Profitieren Sie von jahrelanger SEO-Erfahrung.
Was ist Large Context?
Bei Large Context überspringt man die Datenbank und die Vektoren komplett. Stattdessen nimmt man die gesamten Dokumente und kopiert sie einfach direkt in das Kontextfenster des Modells. Das Modell nutzt dann seinen eigenen Attention Mechanism, um die Antwort im Text zu finden.
Früher war dies kaum möglich, weil ältere LLMs nur winzige Kontextfenster von vielleicht 4.000 Tokens hatten; nicht einmal ein Roman passte dort hinein. Heute verfügen Modelle wie Claude Opus 4.6, Gemini 3.1 Pro oder GPT-5.4 jedoch über Kontextfenster von über einer Million Token. Das entspricht etwa 700.000 Wörtern. Das reicht zum Beispiel für mehrere Romane.
Warum Large Context so attraktiv ist
Der massive Größenzuwachs der Kontextfenster wirft die Frage auf, ob RAG überhaupt noch notwendig ist. Large Context bietet drei entscheidende Vorteile:
- Ein RAG-System in der Produktion ist komplex. Man braucht Strategien für das Zerteilen der Texte, Embedding-Modelle, Vektordatenbanken und Reranker. Bei Large Context fällt dieser gesamte Stack weg; man schickt die Daten einfach direkt an das Modell.
- Bei RAG kann die semantische Suche scheitern, weil sie nur auf Wahrscheinlichkeiten basiert. Wenn die Suche den relevanten Textabschnitt nicht findet, die sogenannte Silent Failure, sieht das Modell die Antwort nie. Bei Large Context sieht das Modell von vornherein alles.
- RAG sucht nach existierenden Übereinstimmungen. Wenn man das Modell jedoch fragt, welche Informationen in einem Dokument fehlen, z. B. durch den Vergleich eines Anforderungsdokuments mit den finalen Release Notes, scheitert RAG. Es ruft nur isolierte Schnipsel ab, kann aber nicht die Lücke dazwischen erkennen. Large Context hingegen bekommt beide Dokumente vollständig und sieht das große Ganze.
Wofür eignet sich Large Context nicht?
Trotz der genannten Vorteile von Large Context wird auch RAG weiter benötigt. Dafür gibt es mehrere Gründe:
- Wenn ein 500-seitiges Handbuch mit etwa 250.000 Token bei jeder einzelnen Nutzeranfrage komplett in das Kontextfenster geladen werden muss, muss das Modell das Handbuch jedes Mal komplett neu lesen und verarbeiten. Das kostet viel Rechenleistung. Bei RAG fällt dieser Aufwand nur ein einziges Mal bei der Indexierung der Dokumente an.
- Das Problem der "Nadel im Heuhaufen": Nur weil sich Daten in einem großen Kontextfenster von 500.000 Token befinden, heißt das nicht, dass das Modell sie auch gut nutzt. Wenn eine Antwort in der Mitte eines 2.000-seitigen Dokuments versteckt ist, kann das Modell sie übersehen und beginnen zu halluzinieren. RAG präsentiert dem Modell nur die relevanten Daten. Das zwingt das Modell, sich auf das Signal statt auf das Rauschen zu konzentrieren.
- Ein Kontextfenster von einer Million Token klingt nach viel, ist aber in Unternehmensnetzwerken, die in Terabytes oder Petabytes gemessen werden, nur ein Tropfen auf den heißen Stein.
Eignet sich Large Context für die Websuche?
Für die Websuche ist Large Context völlig ungeeignet. Selbst riesige Kontextfenster von Millionen von Token sind viel zu klein für die Datenmenge im Web.
Für Informationsquellen in dieser Größenordnung wird weiter eine Retrieval-Ebene benötigt, um die umfangreichen Informationen vorab zu filtern, bevor sie auf eine Größe reduziert werden, die in das Kontextfenster des LLMs passt.
Zu diesem Thema gibt es ein sehr gutes Video von IBM.
























