Du fragst ChatGPT etwas und die Antwort ist veraltet. Oder schlicht falsch. Das passiert weil LLMs nur wissen was in ihren Trainingsdaten steht – und die haben ein Ablaufdatum. RAG löst genau dieses Problem. Hier erfährst du wie.
RAG in einem Satz
Retrieval Augmented Generation (RAG) bedeutet: Bevor die KI antwortet, sucht sie zuerst in einer Wissensdatenbank nach relevanten Informationen – und baut ihre Antwort darauf auf.
Stell dir vor, du fragst einen Experten etwas. Ohne RAG antwortet der Experte nur aus dem Gedächtnis. Mit RAG schlägt er zuerst in seinen Unterlagen nach und gibt dir dann eine fundierte Antwort mit Quellenangabe.
Warum brauchen wir RAG?
LLMs wie GPT-4, Claude oder Gemini haben drei fundamentale Probleme:
Problem 1: Veraltetes Wissen
Jedes LLM hat einen Wissens-Cutoff. Was nach dem Training passiert ist, kennt das Modell nicht. Ein LLM das bis März 2025 trainiert wurde weiss nichts über Ereignisse danach.
Problem 2: Halluzinationen
LLMs generieren manchmal Fakten die plausibel klingen, aber falsch sind. Sie “halluzinieren” weil sie keine echte Faktenprüfung machen – sie berechnen nur das wahrscheinlichste nächste Wort.
Problem 3: Kein Zugang zu internen Daten
Ein LLM kennt deine Firmen-Daten nicht. Es hat keinen Zugriff auf dein CRM, deine Wissensdatenbank oder deine internen Prozessdokumentation.
RAG löst alle drei Probleme indem es dem LLM vor der Antwort relevante, aktuelle und kontextbezogene Dokumente zur Verfügung stellt.
Wie funktioniert RAG? Schritt für Schritt
Schritt 1: Dokumente vorbereiten (Indexing)
Zuerst werden alle relevanten Dokumente in eine durchsuchbare Datenbank umgewandelt:
- Dokumente sammeln: PDFs, Webseiten, Datenbanken, Wikis, E-Mails
- Chunking: Lange Dokumente werden in kleinere Abschnitte (Chunks) aufgeteilt – typisch 200-500 Wörter pro Chunk
- Embedding: Jeder Chunk wird in einen mathematischen Vektor umgewandelt (ein “Zahlen-Fingerabdruck” der die Bedeutung erfasst)
- Speichern: Die Vektoren werden in einer Vektordatenbank gespeichert (z.B. Pinecone, Weaviate, Chroma)
Schritt 2: Suchen (Retrieval)
Wenn eine Frage gestellt wird:
- Frage wird eingebettet: Die Frage wird ebenfalls in einen Vektor umgewandelt
- Ähnlichkeitssuche: Die Vektordatenbank findet die Chunks deren Bedeutung am nächsten an der Frage liegt
- Top-K Ergebnisse: Die 3-10 relevantesten Chunks werden ausgewählt
Beispiel:
- Frage: “Wie hoch war der Umsatz in Q3?”
- System findet: Quartalsbericht Q3, Finanzpräsentation, Vorstandsprotokoll
- Die relevantesten Absätze aus diesen Dokumenten werden extrahiert
Schritt 3: Generieren (Generation)
Die gefundenen Dokumente werden zusammen mit der Frage an das LLM geschickt:
“Beantworte folgende Frage basierend auf den bereitgestellten Dokumenten: [Frage]. Hier sind die relevanten Informationen: [Chunk 1], [Chunk 2], [Chunk 3]. Wenn die Antwort nicht in den Dokumenten steht, sage das.”
Das LLM generiert eine Antwort die auf echten Fakten aus den Dokumenten basiert – nicht auf vagem Trainingswissen.
RAG vs. Fine-Tuning vs. Prompt Engineering
| Aspekt | RAG | Fine-Tuning | Prompt Engineering |
|---|---|---|---|
| Was es macht | Externe Dokumente einbeziehen | Modell auf spezifische Daten trainieren | Clevere Anweisungen formulieren |
| Aktualisierbarkeit | Sofort (Dokument austauschen) | Aufwändig (neu trainieren) | Sofort |
| Kosten | Mittel (Vektordatenbank + API) | Hoch (Training + Hosting) | Niedrig |
| Genauigkeit bei Fakten | Hoch (mit Quellenangabe) | Mittel | Niedrig |
| Halluzinationsrisiko | Niedrig | Mittel | Hoch |
| Technischer Aufwand | Mittel | Hoch | Niedrig |
| Datenmenge | Unbegrenzt | Begrenzt durch Training | Begrenzt durch Kontextfenster |
Faustregel:
- Prompt Engineering: Erste Option, immer ausprobieren
- RAG: Wenn du aktuelle Fakten aus eigenen Dokumenten brauchst
- Fine-Tuning: Wenn du das Verhalten/den Stil des Modells fundamental ändern willst
RAG im Alltag: Wo du es schon nutzt
Du verwendest RAG wahrscheinlich bereits – ohne es zu wissen:
Perplexity AI
Die “KI-Suchmaschine” ist ein RAG-System. Sie sucht das Internet nach relevanten Quellen, extrahiert Informationen und generiert eine Antwort mit Quellenangaben.
ChatGPT mit Web-Suche
Wenn ChatGPT “das Internet durchsucht” macht es RAG: Webseiten finden, relevante Passagen extrahieren, Antwort generieren.
Google NotebookLM
Du lädst Dokumente hoch und stellst Fragen dazu. Klassisches RAG – deine Dokumente sind die Wissensbasis, das LLM generiert Antworten daraus.
Microsoft Copilot (im Unternehmen)
Copilot durchsucht deine E-Mails, Teams-Chats, SharePoint-Dokumente und OneDrive-Dateien und beantwortet Fragen mit RAG.
GitHub Copilot
Wenn du Code schreibst, analysiert Copilot den Kontext deines Projekts (offene Dateien, Projektstruktur) per RAG und generiert passende Code-Vorschläge.
Eigenes RAG-System bauen: Die Optionen
Option 1: No-Code (sofort nutzbar)
Tools:
- Google NotebookLM – Dokumente hochladen, Fragen stellen (kostenlos)
- ChatGPT mit Custom GPTs – Eigene Wissensbasis als Dateien hochladen
- Claude Projects – Dokumente in ein Projekt laden, kontextbezogen chatten
Geeignet für: Einzelpersonen, kleine Teams, erste Schritte
Option 2: Low-Code (mit etwas Konfiguration)
Tools:
- Langflow – Visueller RAG-Pipeline-Builder
- Flowise – Open-Source, Drag-and-Drop
- Stack AI – Enterprise-RAG ohne Code
Geeignet für: Teams die mehr Kontrolle wollen ohne tief in Code einzusteigen
Option 3: Code (maximale Kontrolle)
Frameworks:
- LangChain (Python/JavaScript) – Das populärste RAG-Framework
- LlamaIndex – Spezialisiert auf Daten-Indexierung und RAG
- Haystack (deepset) – Europäisch, DSGVO-freundlich
Vektordatenbanken:
- Pinecone – Managed, einfach, skalierbar
- Weaviate – Open Source, flexibel
- Chroma – Leichtgewichtig, ideal für Prototypen
- Qdrant – Open Source, performant
Geeignet für: Entwickler-Teams, Enterprise-Anwendungen, komplexe Anforderungen
Typische Fehler bei RAG-Systemen
1. Zu grosse Chunks
Wenn du 5.000-Wort-Abschnitte als Chunks verwendest, findet das System zwar den richtigen Abschnitt, aber das LLM wird mit irrelevanten Informationen überflutet. Besser: 200-500 Wörter pro Chunk mit Überlappung.
2. Schlechte Embedding-Modelle
Nicht alle Embedding-Modelle sind gleich gut. Für deutsche Texte sind mehrsprachige Modelle wie multilingual-e5-large oder BGE-M3 deutlich besser als rein englische.
3. Keine Quellenangabe
Ein RAG-System das keine Quellen nennt ist kaum besser als ein normales LLM. Die Quellenangabe ist der ganze Punkt – sie macht die Antwort überprüfbar.
4. Veraltete Dokumente
RAG ist nur so gut wie die Dokumente dahinter. Wenn deine Wissensdatenbank veraltet ist, bekommst du veraltete Antworten. Automatische Aktualisierung einrichten.
5. Zu wenig Kontext
Wenn du nur 1-2 Chunks an das LLM schickst, fehlt oft der Zusammenhang. 5-10 Chunks sind meistens besser, solange du nicht das Kontextfenster sprengst.
RAG für Unternehmen: Konkrete Anwendungsfälle
| Anwendung | Dokumente | Nutzen |
|---|---|---|
| Internes Wissensmanagement | Wiki, Confluence, SOPs | Mitarbeiter finden Antworten in Sekunden statt Stunden |
| Kundenservice-Bot | FAQ, Handbücher, Ticket-Historie | Automatische Beantwortung von 60-80% der Kundenanfragen |
| Vertragsanalyse | Verträge, AGB, Rechtsdokumente | Spezifische Klauseln in Sekunden finden |
| Onboarding | Handbücher, Prozessdoku, Organigramme | Neue Mitarbeiter finden sich schneller zurecht |
| Compliance | Regulierungen, Richtlinien, Gesetze | Automatische Prüfung ob Prozesse konform sind |
Die Zukunft von RAG
RAG entwickelt sich rasant weiter:
- Multimodales RAG: Nicht nur Text, sondern auch Bilder, Tabellen und Diagramme durchsuchen
- Agentic RAG: KI-Agenten die selbständig entscheiden welche Quellen sie brauchen und mehrere Suchschritte hintereinander ausführen
- Graph RAG: Zusätzlich zu Vektoren werden Beziehungen zwischen Konzepten gespeichert (Knowledge Graphs) – für komplexere Zusammenhänge
- Self-RAG: Das LLM entscheidet selbst ob es externe Quellen braucht oder aus dem Wissen antworten kann
RAG ist kein Trend der wieder verschwindet. Es ist eine fundamentale Architektur die KI-Systeme zuverlässiger, aktueller und nützlicher macht. Jede Enterprise-KI-Anwendung wird RAG in irgendeiner Form nutzen.
Wichtige Begriffe
Embedding
Ein mathematischer Vektor (Liste von Zahlen) der die Bedeutung eines Textes erfasst. Ähnliche Texte haben ähnliche Embeddings.
Vektordatenbank
Eine spezialisierte Datenbank die für die schnelle Suche nach ähnlichen Vektoren optimiert ist. Anders als SQL-Datenbanken sucht sie nicht nach exakten Treffern, sondern nach semantischer Ähnlichkeit.
Chunk
Ein Abschnitt eines Dokuments. Grosse Dokumente werden in Chunks aufgeteilt weil LLMs begrenzte Kontextfenster haben und kleinere Abschnitte präziser durchsucht werden können.
Semantic Search
Suche nach Bedeutung statt nach exakten Wörtern. “Auto kaufen” findet auch Dokumente über “Fahrzeug erwerben” oder “Pkw-Kauf”.
Kontextfenster
Die maximale Textmenge die ein LLM gleichzeitig verarbeiten kann. RAG hilft dieses Limit effizient zu nutzen indem nur relevante Chunks eingefügt werden.
Weiterlesen:
- Was ist ein LLM? Large Language Models einfach erklärt
- KI-Agenten erklärt: Was sind AI Agents und warum verändern sie alles?
- KI für Anfänger: Der komplette Einstieg in künstliche Intelligenz
- Perplexity AI Test 2026: Die KI-Suchmaschine die Google Konkurrenz macht
Häufige Fragen
Brauche ich Programmierkenntnisse für RAG?
Für fertige RAG-Produkte wie Perplexity oder NotebookLM: Nein. Für eigene RAG-Systeme: Grundlegende Python-Kenntnisse und Verständnis von APIs sind nötig. Frameworks wie LangChain und LlamaIndex machen den Einstieg einfacher.
Ist RAG besser als Fine-Tuning?
Für aktuelle, faktenbasierte Antworten aus eigenen Dokumenten: Ja. Für stilistische Anpassungen oder spezialisiertes Fachwissen das sich selten ändert: Fine-Tuning kann besser sein. Oft ist eine Kombination ideal.
Welche Dokumente kann ich für RAG verwenden?
Praktisch alle Textformate: PDFs, Word-Dokumente, Webseiten, E-Mails, Datenbank-Einträge, Wikis, Confluence-Seiten, Slack-Nachrichten. Auch strukturierte Daten wie CSV oder JSON funktionieren.
Was kostet ein RAG-System?
Von 0 EUR (Perplexity Free, NotebookLM) bis mehrere tausend Euro pro Monat für Enterprise-Lösungen. Eigene RAG-Systeme kosten hauptsächlich durch API-Calls (Embedding + LLM) – typisch 50-500 EUR/Monat je nach Volumen.
Löst RAG das Halluzinations-Problem komplett?
Nein, aber es reduziert Halluzinationen drastisch. Wenn die Antwort in den bereitgestellten Dokumenten steht, ist die Genauigkeit sehr hoch. Wenn nicht, kann das LLM trotzdem halluzinieren. Die Quellenangabe hilft aber beim Verifizieren.
