KI 6 Min Lesezeit

RAG-Systeme: Dein Firmenwissen als Chatbot nutzbar machen

RAG einfach erklärt: Wie Du Firmenwissen per Retrieval Augmented Generation als Chatbot nutzbar machst. Mit Aufwand, Architektur und typischen Fehlern.

Bild: JohnsonGoh · CC0

Thorsten Heß
Thorsten Heß MOLOTOW Web Development

Stell Dir vor, Dein neuer Servicemitarbeiter bekommt am ersten Tag Zugriff auf sämtliche Handbücher, Arbeitsanweisungen, FAQs und technischen Datenblätter Deiner Firma — und kann jede Frage innerhalb von Sekunden beantworten, mit Quellenangabe, im Tonfall Deines Unternehmens. Klingt nach Zukunft? Ist sie nicht mehr. Die Technologie dahinter heißt Retrieval Augmented Generation, kurz RAG, und sie ist 2025 das sinnvollste KI-Projekt, das Du in Deinem Mittelstand angehen kannst. In diesem Beitrag erklären wir Dir, was RAG ist, wofür es taugt, wie es technisch funktioniert und welche Fehler wir in unserer Beratungspraxis immer wieder sehen.

Was ist RAG überhaupt?

RAG steht für Retrieval Augmented Generation — auf Deutsch: „abruf-erweiterte Generierung”. Die Idee ist so einfach wie wirkungsvoll: Statt ein Sprachmodell wie GPT oder Claude nur auf seinem Trainingswissen antworten zu lassen, reichst Du ihm zu jeder Frage zuerst die relevanten Passagen aus Deinen eigenen Dokumenten an, und erst dann formuliert es eine Antwort.

Das hat zwei riesige Vorteile gegenüber dem klassischen ChatGPT-Einsatz:

  1. Deine eigenen Inhalte sind die Quelle. Das Modell halluziniert nicht aus der Luft, sondern zitiert aus Deinen PDFs, Word-Dokumenten, Wiki-Artikeln.
  2. Es ist aktuell. Änderst Du ein Handbuch, ist die Info sofort im Chatbot verfügbar — ohne ein Modell neu trainieren zu müssen.

Kurz gesagt: Vanilla ChatGPT kennt die Welt bis zu seinem Trainingsdatum, aber nicht Dein Unternehmen. RAG ändert das.

Unterschied zu „normalem” ChatGPT

Wenn Du ChatGPT fragst, wie hoch Dein Rabatt für Stammkunden ab 10.000 Euro Jahresumsatz ist, bekommst Du eine von zwei Antworten: „Das weiß ich nicht” oder — schlimmer — eine erfundene Zahl. Mit RAG läuft das so ab:

  1. Deine Frage wird in einen mathematischen Vektor umgerechnet (Embedding).
  2. Das System sucht in Deiner Vektor-Datenbank nach den Textpassagen, deren Embeddings Deiner Frage am nächsten sind — zum Beispiel im PDF „Rabattstaffel 2025”.
  3. Die gefundenen Passagen werden zusammen mit Deiner Frage an das Sprachmodell geschickt.
  4. Das Modell formuliert eine Antwort — basierend auf Deinen echten Dokumenten, mit Quellenangabe.

Das Ergebnis: belastbare, nachvollziehbare Antworten statt Zufallstreffer.

Typische Anwendungsfälle im Mittelstand

Interne Wissensbasis

Der Klassiker. Alle Handbücher, Prozessbeschreibungen, Arbeitsanweisungen, Präsentationen und Mail-Archive wandern in ein RAG-System. Mitarbeiter fragen in natürlicher Sprache und bekommen sofort eine Antwort mit Link zur Quelle. Spart Einarbeitungszeit, entlastet erfahrene Kollegen und verhindert, dass Wissen mit Kündigungen verloren geht.

Produkt-FAQ und Kundensupport

Produktkataloge, technische Datenblätter und Service-Handbücher werden zum 24/7 verfügbaren Support-Chatbot. Für B2B-Geschäfte mit komplexen Produkten ist das ein echter Hebel: Der Kunde bekommt um 22 Uhr eine präzise Antwort auf seine Anschlussfrage, ohne dass einer Deiner Techniker ans Telefon muss.

Onboarding neuer Mitarbeiter

Neue Kollegen haben hundert Fragen, die niemand gerne zum zehnten Mal beantwortet. Ein RAG-Onboarding-Bot kennt Urlaubsregelung, IT-Policy, interne Abkürzungen, Ansprechpartner und Standardprozesse. Unsere Erfahrung: Die ersten zwei Wochen werden deutlich weniger chaotisch.

Angebotsrecherche im Vertrieb

Der Vertrieb sucht schnell nach „haben wir schonmal etwas Ähnliches gemacht?” — RAG durchsucht alte Angebote und Projektdokumentationen und zieht passende Referenzen heraus.

Technischer Überblick: Was Du brauchst

RAG klingt komplizierter, als es ist. Die typische Architektur hat vier Komponenten:

  1. Dokumenten-Pipeline: Sammelt Deine Quellen (SharePoint, Drive, Confluence, Wiki), zerlegt sie in Chunks (typisch 200 bis 800 Token), erzeugt Embeddings.
  2. Vektor-Datenbank: Speichert die Embeddings. Bekannte Lösungen sind Qdrant, Weaviate, pgvector (PostgreSQL-Erweiterung) oder Pinecone. Für kleine Setups reicht ein einzelner Server.
  3. Retriever: Der Mechanismus, der zu einer Anfrage die relevantesten Passagen findet. State of the Art ist eine hybride Suche aus klassischer Keyword-Suche (BM25) und semantischer Vektor-Suche plus optional einem Re-Ranker.
  4. Sprachmodell: GPT-4, Claude, Mistral, Llama — je nach Anforderung und Datenschutz.

Die meisten mittelständischen Projekte laufen mit OpenAI oder Claude plus einer Open-Source-Vektor-DB in der EU. Das ist günstig, schnell aufgesetzt und DSGVO-tauglich.

Typische Fehler — und wie Du sie vermeidest

In unseren RAG-Projekten sehen wir immer wieder dieselben Stolpersteine:

Schlechte Datenqualität. Wenn Deine Handbücher seit 2019 nicht aktualisiert wurden und sich widersprechen, gibt Dir auch der beste Retriever widersprüchliche Antworten. RAG ist kein Zauberstab, sondern Verstärker. Guter Input = gute Antworten. Mülliger Input = mülliger Output.

Zu große Chunks. Wenn Du ein 40-Seiten-PDF in einem Stück in die Vektor-DB wirfst, findet der Retriever die relevante Stelle nicht präzise. Besser: Sinnvolles Chunking nach Abschnitten, Überschriften, Absätzen.

Keine Zugriffsrechte. Nicht jeder Mitarbeiter darf jedes Dokument sehen — Gehaltslisten, Strategiepapiere, Vertragsunterlagen. Ein RAG-System ohne Berechtigungsmodell kann zum Datenschutz-Desaster werden. Implementiere Filter, die auf User-Ebene arbeiten.

Keine Evaluation. Viele Projekte laufen ins Blaue: Einrichten, deployen, hoffen. Besser: Eine Testliste mit 30 bis 50 typischen Fragen, regelmäßig evaluiert. So merkst Du, wenn sich die Qualität verschlechtert.

Unklare Quellenangabe. Ein RAG-Chatbot muss bei jeder Antwort zeigen, woher die Info stammt — Dateiname, Seitenzahl, Link. Sonst verlieren die Nutzer das Vertrauen.

Aufwand und Kosten

Realistische Zahlen aus unserer Praxis: Ein solides RAG-Pilotprojekt mit 500 bis 2000 Dokumenten kostet in der Einrichtung zwischen 5.000 und 20.000 Euro, je nach Komplexität der Datenquellen. Laufende Kosten (Embeddings, LLM-Tokens, Hosting) bewegen sich zwischen 50 und 500 Euro pro Monat. Amortisation meist innerhalb von sechs bis zwölf Monaten durch eingesparte Supportzeit. Siehe dazu auch unseren Beitrag zu KI Use Cases im Mittelstand.

Häufige Fragen

Was ist der Unterschied zwischen RAG und Fine-Tuning?

Beim Fine-Tuning trainierst Du ein Sprachmodell mit Deinen eigenen Daten nach — das ist teuer, aufwendig und muss bei jeder Änderung wiederholt werden. Bei RAG bleibt das Modell unverändert, Deine Dokumente werden nur zum Zeitpunkt der Frage dazugereicht. Für die allermeisten Wissensbasis-Anwendungen ist RAG die richtige Wahl: schneller, billiger, leichter zu aktualisieren.

Funktioniert RAG auch mit PDFs und gescannten Dokumenten?

Ja, aber mit Einschränkungen. Text-PDFs sind problemlos. Gescannte PDFs (Bilder) brauchen einen OCR-Schritt vorher. Word-, Excel- und Confluence-Inhalte sind meist einfacher zu verarbeiten als PDFs. Tabellen und Bilder sind das schwierigste Thema — moderne multimodale Modelle werden hier 2025 aber deutlich besser.

Kann ich ein RAG-System DSGVO-konform betreiben?

Ja, wenn Du die richtigen Bausteine wählst. Für maximale Kontrolle nutze eine EU-gehostete Vektor-DB (zum Beispiel pgvector auf einem deutschen Server), ein LLM mit DPA (OpenAI Enterprise, Claude, Mistral oder lokale Modelle) und ein sauberes Berechtigungsmodell. Details zur DSGVO findest Du auch in unserem Artikel zu ChatGPT DSGVO-konform.

Wie lange dauert so ein Projekt?

Ein sauberer Pilot mit einer klar abgegrenzten Wissensdomäne braucht vier bis acht Wochen: Datensichtung, Chunking, Retriever-Tuning, Evaluation, Deployment. Ein unternehmensweiter Rollout ist ein Marathon und sollte in Etappen erfolgen.

Fazit

RAG ist die derzeit praktikabelste Möglichkeit, Dein Firmenwissen in ein modernes KI-Tool zu verwandeln. Die Technik ist reif, die Kosten sind überschaubar, der Nutzen ist messbar. Der schwierigste Teil ist selten die KI — sondern die Datenqualität und das Berechtigungskonzept. Wenn Du darüber nachdenkst, ein RAG-Projekt anzugehen, melde Dich gerne bei uns über unser Kontaktformular — ein erstes Gespräch ist kostenlos.

Beitrag teilen
Thorsten Heß — Gründer MOLOTOW Web Development

Über den Autor

Thorsten Heß

Gründer · MOLOTOW Web Development

Seit über 20 Jahren beschäftige ich mich mit dem Web — von der ersten handgeschriebenen HTML-Seite bis zu komplexen KI-gestützten Plattformen. Bei MOLOTOW Web Development in Lahr entwickeln wir für kleine wie für mittelständische Unternehmen Lösungen, die nicht nur gut aussehen, sondern auch nach Jahren noch wartbar sind. Seit 2024 ergänzen wir unser Portfolio um zertifizierte KI-Beratung nach dem EU AI Act. Wenn Du eine Idee, ein Problem oder nur eine kurze Frage hast — schreib uns.