RAG erklärt: Was ist Retrieval Augmented Generation?

Q: "Brauche ich Programmierkenntnisse für RAG?"

"Für fertige RAG-Produkte wie Perplexity oder NotebookLM: Nein. Für eigene RAG-Systeme: Grundlegende Python-Kenntnisse und Verständnis von APIs sind nötig. Frameworks wie LangChain und LlamaIndex machen den Einstieg einfacher."

Q: "Ist RAG besser als Fine-Tuning?"

"Für aktuelle, faktenbasierte Antworten aus eigenen Dokumenten: Ja. Für stilistische Anpassungen oder spezialisiertes Fachwissen das sich selten ändert: Fine-Tuning kann besser sein. Oft ist eine Kombination ideal."

Q: "Welche Dokumente kann ich für RAG verwenden?"

"Praktisch alle Textformate: PDFs, Word-Dokumente, Webseiten, E-Mails, Datenbank-Einträge, Wikis, Confluence-Seiten, Slack-Nachrichten. Auch strukturierte Daten wie CSV oder JSON funktionieren."

Q: "Was kostet ein RAG-System?"

"Von 0 EUR (Perplexity Free, NotebookLM) bis mehrere tausend Euro pro Monat für Enterprise-Lösungen. Eigene RAG-Systeme kosten hauptsächlich durch API-Calls (Embedding + LLM) – typisch 50-500 EUR/Monat je nach Volumen."

Q: "Löst RAG das Halluzinations-Problem komplett?"

"Nein, aber es reduziert Halluzinationen drastisch. Wenn die Antwort in den bereitgestellten Dokumenten steht, ist die Genauigkeit sehr hoch. Wenn nicht, kann das LLM trotzdem halluzinieren. Die Quellenangabe hilft aber beim Verifizieren."

Du fragst ChatGPT etwas und die Antwort ist veraltet. Oder schlicht falsch. Das passiert weil LLMs nur wissen was in ihren Trainingsdaten steht – und die haben ein Ablaufdatum. RAG löst genau dieses Problem. Hier erfährst du wie.

RAG in einem Satz

Retrieval Augmented Generation (RAG) bedeutet: Bevor die KI antwortet, sucht sie zuerst in einer Wissensdatenbank nach relevanten Informationen – und baut ihre Antwort darauf auf.

Stell dir vor, du fragst einen Experten etwas. Ohne RAG antwortet der Experte nur aus dem Gedächtnis. Mit RAG schlägt er zuerst in seinen Unterlagen nach und gibt dir dann eine fundierte Antwort mit Quellenangabe.

Warum brauchen wir RAG?

LLMs wie GPT-4, Claude oder Gemini haben drei fundamentale Probleme:

Problem 1: Veraltetes Wissen

Jedes LLM hat einen Wissens-Cutoff. Was nach dem Training passiert ist, kennt das Modell nicht. Ein LLM das bis März 2025 trainiert wurde weiss nichts über Ereignisse danach.

Problem 2: Halluzinationen

LLMs generieren manchmal Fakten die plausibel klingen, aber falsch sind. Sie “halluzinieren” weil sie keine echte Faktenprüfung machen – sie berechnen nur das wahrscheinlichste nächste Wort.

Problem 3: Kein Zugang zu internen Daten

Ein LLM kennt deine Firmen-Daten nicht. Es hat keinen Zugriff auf dein CRM, deine Wissensdatenbank oder deine internen Prozessdokumentation.

RAG löst alle drei Probleme indem es dem LLM vor der Antwort relevante, aktuelle und kontextbezogene Dokumente zur Verfügung stellt.

Wie funktioniert RAG? Schritt für Schritt

Schritt 1: Dokumente vorbereiten (Indexing)

Zuerst werden alle relevanten Dokumente in eine durchsuchbare Datenbank umgewandelt:

Dokumente sammeln: PDFs, Webseiten, Datenbanken, Wikis, E-Mails
Chunking: Lange Dokumente werden in kleinere Abschnitte (Chunks) aufgeteilt – typisch 200-500 Wörter pro Chunk
Embedding: Jeder Chunk wird in einen mathematischen Vektor umgewandelt (ein “Zahlen-Fingerabdruck” der die Bedeutung erfasst)
Speichern: Die Vektoren werden in einer Vektordatenbank gespeichert (z.B. Pinecone, Weaviate, Chroma)

Schritt 2: Suchen (Retrieval)

Wenn eine Frage gestellt wird:

Frage wird eingebettet: Die Frage wird ebenfalls in einen Vektor umgewandelt
Ähnlichkeitssuche: Die Vektordatenbank findet die Chunks deren Bedeutung am nächsten an der Frage liegt
Top-K Ergebnisse: Die 3-10 relevantesten Chunks werden ausgewählt

Beispiel:

Frage: “Wie hoch war der Umsatz in Q3?”
System findet: Quartalsbericht Q3, Finanzpräsentation, Vorstandsprotokoll
Die relevantesten Absätze aus diesen Dokumenten werden extrahiert

Schritt 3: Generieren (Generation)

Die gefundenen Dokumente werden zusammen mit der Frage an das LLM geschickt:

“Beantworte folgende Frage basierend auf den bereitgestellten Dokumenten: [Frage]. Hier sind die relevanten Informationen: [Chunk 1], [Chunk 2], [Chunk 3]. Wenn die Antwort nicht in den Dokumenten steht, sage das.”

Das LLM generiert eine Antwort die auf echten Fakten aus den Dokumenten basiert – nicht auf vagem Trainingswissen.

RAG vs. Fine-Tuning vs. Prompt Engineering

Aspekt	RAG	Fine-Tuning	Prompt Engineering
Was es macht	Externe Dokumente einbeziehen	Modell auf spezifische Daten trainieren	Clevere Anweisungen formulieren
Aktualisierbarkeit	Sofort (Dokument austauschen)	Aufwändig (neu trainieren)	Sofort
Kosten	Mittel (Vektordatenbank + API)	Hoch (Training + Hosting)	Niedrig
Genauigkeit bei Fakten	Hoch (mit Quellenangabe)	Mittel	Niedrig
Halluzinationsrisiko	Niedrig	Mittel	Hoch
Technischer Aufwand	Mittel	Hoch	Niedrig
Datenmenge	Unbegrenzt	Begrenzt durch Training	Begrenzt durch Kontextfenster

Faustregel:

Prompt Engineering: Erste Option, immer ausprobieren
RAG: Wenn du aktuelle Fakten aus eigenen Dokumenten brauchst
Fine-Tuning: Wenn du das Verhalten/den Stil des Modells fundamental ändern willst

RAG im Alltag: Wo du es schon nutzt

Du verwendest RAG wahrscheinlich bereits – ohne es zu wissen:

Perplexity AI

Die “KI-Suchmaschine” ist ein RAG-System. Sie sucht das Internet nach relevanten Quellen, extrahiert Informationen und generiert eine Antwort mit Quellenangaben.

ChatGPT mit Web-Suche

Wenn ChatGPT “das Internet durchsucht” macht es RAG: Webseiten finden, relevante Passagen extrahieren, Antwort generieren.

Google NotebookLM

Du lädst Dokumente hoch und stellst Fragen dazu. Klassisches RAG – deine Dokumente sind die Wissensbasis, das LLM generiert Antworten daraus.

Microsoft Copilot (im Unternehmen)

Copilot durchsucht deine E-Mails, Teams-Chats, SharePoint-Dokumente und OneDrive-Dateien und beantwortet Fragen mit RAG.

GitHub Copilot

Wenn du Code schreibst, analysiert Copilot den Kontext deines Projekts (offene Dateien, Projektstruktur) per RAG und generiert passende Code-Vorschläge.

Eigenes RAG-System bauen: Die Optionen

Option 1: No-Code (sofort nutzbar)

Tools:

Google NotebookLM – Dokumente hochladen, Fragen stellen (kostenlos)
ChatGPT mit Custom GPTs – Eigene Wissensbasis als Dateien hochladen
Claude Projects – Dokumente in ein Projekt laden, kontextbezogen chatten

Geeignet für: Einzelpersonen, kleine Teams, erste Schritte

Option 2: Low-Code (mit etwas Konfiguration)

Tools:

Langflow – Visueller RAG-Pipeline-Builder
Flowise – Open-Source, Drag-and-Drop
Stack AI – Enterprise-RAG ohne Code

Geeignet für: Teams die mehr Kontrolle wollen ohne tief in Code einzusteigen

Option 3: Code (maximale Kontrolle)

Frameworks:

LangChain (Python/JavaScript) – Das populärste RAG-Framework
LlamaIndex – Spezialisiert auf Daten-Indexierung und RAG
Haystack (deepset) – Europäisch, DSGVO-freundlich

Vektordatenbanken:

Pinecone – Managed, einfach, skalierbar
Weaviate – Open Source, flexibel
Chroma – Leichtgewichtig, ideal für Prototypen
Qdrant – Open Source, performant

Geeignet für: Entwickler-Teams, Enterprise-Anwendungen, komplexe Anforderungen

Typische Fehler bei RAG-Systemen

1. Zu grosse Chunks

Wenn du 5.000-Wort-Abschnitte als Chunks verwendest, findet das System zwar den richtigen Abschnitt, aber das LLM wird mit irrelevanten Informationen überflutet. Besser: 200-500 Wörter pro Chunk mit Überlappung.

2. Schlechte Embedding-Modelle

Nicht alle Embedding-Modelle sind gleich gut. Für deutsche Texte sind mehrsprachige Modelle wie multilingual-e5-large oder BGE-M3 deutlich besser als rein englische.

3. Keine Quellenangabe

Ein RAG-System das keine Quellen nennt ist kaum besser als ein normales LLM. Die Quellenangabe ist der ganze Punkt – sie macht die Antwort überprüfbar.

4. Veraltete Dokumente

RAG ist nur so gut wie die Dokumente dahinter. Wenn deine Wissensdatenbank veraltet ist, bekommst du veraltete Antworten. Automatische Aktualisierung einrichten.

5. Zu wenig Kontext

Wenn du nur 1-2 Chunks an das LLM schickst, fehlt oft der Zusammenhang. 5-10 Chunks sind meistens besser, solange du nicht das Kontextfenster sprengst.

RAG für Unternehmen: Konkrete Anwendungsfälle

Anwendung	Dokumente	Nutzen
Internes Wissensmanagement	Wiki, Confluence, SOPs	Mitarbeiter finden Antworten in Sekunden statt Stunden
Kundenservice-Bot	FAQ, Handbücher, Ticket-Historie	Automatische Beantwortung von 60-80% der Kundenanfragen
Vertragsanalyse	Verträge, AGB, Rechtsdokumente	Spezifische Klauseln in Sekunden finden
Onboarding	Handbücher, Prozessdoku, Organigramme	Neue Mitarbeiter finden sich schneller zurecht
Compliance	Regulierungen, Richtlinien, Gesetze	Automatische Prüfung ob Prozesse konform sind

Die Zukunft von RAG

RAG entwickelt sich rasant weiter:

Multimodales RAG: Nicht nur Text, sondern auch Bilder, Tabellen und Diagramme durchsuchen
Agentic RAG: KI-Agenten die selbständig entscheiden welche Quellen sie brauchen und mehrere Suchschritte hintereinander ausführen
Graph RAG: Zusätzlich zu Vektoren werden Beziehungen zwischen Konzepten gespeichert (Knowledge Graphs) – für komplexere Zusammenhänge
Self-RAG: Das LLM entscheidet selbst ob es externe Quellen braucht oder aus dem Wissen antworten kann

RAG ist kein Trend der wieder verschwindet. Es ist eine fundamentale Architektur die KI-Systeme zuverlässiger, aktueller und nützlicher macht. Jede Enterprise-KI-Anwendung wird RAG in irgendeiner Form nutzen.

Wichtige Begriffe

Embedding

Ein mathematischer Vektor (Liste von Zahlen) der die Bedeutung eines Textes erfasst. Ähnliche Texte haben ähnliche Embeddings.

Vektordatenbank

Eine spezialisierte Datenbank die für die schnelle Suche nach ähnlichen Vektoren optimiert ist. Anders als SQL-Datenbanken sucht sie nicht nach exakten Treffern, sondern nach semantischer Ähnlichkeit.

Chunk

Ein Abschnitt eines Dokuments. Grosse Dokumente werden in Chunks aufgeteilt weil LLMs begrenzte Kontextfenster haben und kleinere Abschnitte präziser durchsucht werden können.

Semantic Search

Suche nach Bedeutung statt nach exakten Wörtern. “Auto kaufen” findet auch Dokumente über “Fahrzeug erwerben” oder “Pkw-Kauf”.

Kontextfenster

Die maximale Textmenge die ein LLM gleichzeitig verarbeiten kann. RAG hilft dieses Limit effizient zu nutzen indem nur relevante Chunks eingefügt werden.

Weiterlesen:

Häufige Fragen

Brauche ich Programmierkenntnisse für RAG?

Für fertige RAG-Produkte wie Perplexity oder NotebookLM: Nein. Für eigene RAG-Systeme: Grundlegende Python-Kenntnisse und Verständnis von APIs sind nötig. Frameworks wie LangChain und LlamaIndex machen den Einstieg einfacher.

Ist RAG besser als Fine-Tuning?

Für aktuelle, faktenbasierte Antworten aus eigenen Dokumenten: Ja. Für stilistische Anpassungen oder spezialisiertes Fachwissen das sich selten ändert: Fine-Tuning kann besser sein. Oft ist eine Kombination ideal.

Welche Dokumente kann ich für RAG verwenden?

Praktisch alle Textformate: PDFs, Word-Dokumente, Webseiten, E-Mails, Datenbank-Einträge, Wikis, Confluence-Seiten, Slack-Nachrichten. Auch strukturierte Daten wie CSV oder JSON funktionieren.

Was kostet ein RAG-System?

Von 0 EUR (Perplexity Free, NotebookLM) bis mehrere tausend Euro pro Monat für Enterprise-Lösungen. Eigene RAG-Systeme kosten hauptsächlich durch API-Calls (Embedding + LLM) – typisch 50-500 EUR/Monat je nach Volumen.

Löst RAG das Halluzinations-Problem komplett?

Nein, aber es reduziert Halluzinationen drastisch. Wenn die Antwort in den bereitgestellten Dokumenten steht, ist die Genauigkeit sehr hoch. Wenn nicht, kann das LLM trotzdem halluzinieren. Die Quellenangabe hilft aber beim Verifizieren.