RAG-Systeme für Unternehmen — Wissensdatenbank-Chat mit eigenen Dokumenten

KI im Mittelstand · Mai 2026 · 14 Min. Lesezeit

← Teil des KI-Guides für den Mittelstand
Hakan Akcan Von Hakan Akcan · Reepa Solutions

Der häufigste Wunsch in unseren KI-Erstgesprächen mit mittelständischen Geschäftsführungen lautet seit drei Jahren fast wortgleich: „Wir wollen einen Chatbot, der unsere eigenen Dokumente kennt — unsere Verträge, unsere technischen Datenblätter, unsere Service-Handbücher.“ Dahinter steht eine richtige Intuition: ein generisches Sprachmodell kennt das Internet, aber nicht die hauseigene Auftragsabwicklung, das interne Compliance-Handbuch oder das gesammelte Wissen aus zehn Jahren Support-Tickets. Genau diese Lücke schließt Retrieval-Augmented Generation, kurz RAG — und es ist 2026 das mit Abstand wichtigste KI-Architekturmuster für den Mittelstand. Dieser Artikel zeigt, was RAG technisch leistet, wann es die richtige Wahl ist, wie ein produktionstaugliches System aufgebaut wird, welche Vektor-Datenbanken und Embedding-Modelle in Frage kommen und wie Sie die Antwort-Qualität messbar machen. Für die strategische Einordnung siehe unseren KI-Guide für den Mittelstand.

Was ist RAG — Definition und Abgrenzung zu Fine-Tuning

Retrieval-Augmented Generation ist ein Architekturmuster, das ein Sprachmodell zur Laufzeit mit zusätzlichem Kontext versorgt, der nicht in seinem Trainingsdatensatz steht. Statt das Modell auf neue Inhalte zu trainieren, durchsucht das System bei jeder Nutzeranfrage eine eigene Dokumentenbasis nach relevanten Passagen und liefert diese Passagen zusammen mit der Frage an das Modell. Das Modell generiert seine Antwort dann nicht aus reinem Vorwissen, sondern aus den konkret bereitgestellten Quellen. Der Unterschied zu klassischem Prompt-Engineering ist die Skalierbarkeit: RAG funktioniert auch dann, wenn die Dokumentenbasis hunderttausende Seiten umfasst, weil nur die jeweils relevanten Auszüge in den Kontext geladen werden.

Die Abgrenzung zu Fine-Tuning ist für Entscheiderinnen wichtig, weil beide Konzepte häufig verwechselt werden. Fine-Tuning bedeutet, das Modell selbst auf eigenen Daten weiter zu trainieren — die internen Gewichte verändern sich, und das Modell „weiß“ danach mehr. Das klingt zunächst eleganter, hat in der Praxis aber drei Nachteile: erstens dauert jeder Trainingslauf Stunden bis Tage und kostet vierstellige Beträge, zweitens sind die Quellen einer Antwort nicht mehr nachvollziehbar, drittens veralten die einprogrammierten Inhalte sofort, sobald sich das zugrundeliegende Material ändert. Für reines Faktenwissen ist Fine-Tuning daher selten die richtige Wahl. Es lohnt sich vor allem dort, wo Stil, Format oder Domänensprache verändert werden sollen — etwa wenn ein Modell konsequent in einem juristischen Schreibstil antworten soll oder wenn es ein internes Klassifikations-Schema beherrschen muss.

RAG dagegen hält das Modell unverändert und tauscht stattdessen die Dokumentenbasis dynamisch aus. Eine neue Vertragsversion ist nach wenigen Minuten Teil des Systems, ein zurückgezogenes Datenblatt verschwindet sofort, jede Antwort enthält Quellenangaben mit Seitenzahl. Diese Eigenschaften sind im Mittelstand entscheidend, weil sie nicht nur technische Anforderungen sind, sondern juristische — wer einer Mitarbeiterin eine Antwort gibt, muss sagen können, woher sie kommt.

Wann RAG sinnvoll ist — typische Use-Cases

Nicht jede KI-Anwendung braucht RAG. Sinnvoll ist es überall dort, wo ein Modell auf eigene, oft aktualisierte, oft umfangreiche Inhalte zugreifen soll und die Antworten nachvollziehbar bleiben müssen. Vier Use-Cases dominieren in unserer Mittelstands-Praxis:

Worin RAG dagegen schwach ist: bei mathematischen Berechnungen, bei reinen Logik-Aufgaben ohne Bezug zu Quelltexten und bei kreativen Aufgaben ohne dokumentierte Grundlage. Wer einen Texter-Assistenten für Marketing-Slogans bauen will, braucht kein RAG, sondern ein gutes Prompt-Template. Mehr zur Tooling-Auswahl im KI-Tools-Vergleich 2026.

RAG-Architektur — die fünf Komponenten

Ein produktionstaugliches RAG-System besteht aus fünf klar abgegrenzten Komponenten. Wer eine davon weglässt oder schludert, bekommt entweder schlechte Antworten oder ein nicht skalierbares System. Die Komponenten greifen in dieser Reihenfolge ineinander:

KomponenteAufgabeTypische Wahl 2026
Embedding-ModellWandelt Text-Chunks und Nutzerfragen in numerische VektorenOpenAI text-embedding-3-large, Voyage-3, BGE-M3
Vektor-DatenbankSpeichert Chunk-Vektoren, liefert ähnliche Vektoren in Millisekundenpgvector, Qdrant, Pinecone, Weaviate
Retrieval-LogikÜbersetzt Frage in Vektor, fragt DB ab, filtert nach MetadatenHybrid Search aus BM25 + Vektor-Ähnlichkeit
RerankingSortiert die Top-N Treffer mit präziserem Modell neuCohere Rerank, Voyage rerank-2, BGE-Reranker
LLM-GeneratorErzeugt Antwort aus Frage und Top-Chunks mit QuellenverweisClaude Sonnet 4.5, GPT-5, Gemini 2.5 Pro

Der eigentliche Wert-Hebel sitzt an einer Stelle, die in Demos oft übersprungen wird: das Reranking. Eine Vektor-Suche liefert typischerweise 20 bis 50 grob passende Chunks. Ohne Reranking landet alles davon im Modell-Kontext — das ist verschwenderisch und reduziert die Antwortqualität. Mit einem dedizierten Reranker-Modell wird diese Liste auf die fünf bis acht tatsächlich relevantesten Chunks reduziert, bevor das LLM antwortet. Wir messen in Kundenprojekten durch sauberes Reranking regelmäßig 15 bis 25 Prozent bessere Faithfulness-Scores bei gleichem Modell und gleicher Datenbasis.

Kostenlose RAG-Architektur-Beratung

Sie planen ein RAG-System für interne Doku, Verträge oder Support? Wir bieten ein 30-minütiges Erstgespräch ohne Kosten — wir bewerten Ihren Datenbestand, schlagen einen passenden Stack vor und liefern einen realistischen Aufwandsrahmen für den ersten Prototyp.

Kostenlose RAG-Beratung anfordern

Vektor-Datenbanken im Vergleich

Die Vektor-Datenbank ist die zentrale Infrastruktur-Entscheidung im RAG-Aufbau, weil sie über Betriebskosten, Datenresidenz und Skalierungs-Verhalten entscheidet. Vier Optionen dominieren 2026 den Markt — die Wahl hängt weniger von der Vektor-Performance als von den umliegenden Anforderungen ab.

LösungBetriebs-ModellStärkeSchwäche
pgvectorPostgreSQL-Erweiterung, self-hostedKeine Zusatz-Komponente, transaktional, DSGVO-einfachBei mehreren Millionen Chunks Index-Tuning nötig
QdrantSelf-hosted oder Cloud, EU-Region verfügbarSehr schnelle Filter-Logik, ausgereifte Metadaten, Open-SourceZweite DB zu betreiben, eigenes Backup
WeaviateSelf-hosted oder CloudModul-System mit eingebettetem Vektorisierer, GraphQL-APIKomplexer Betrieb, höhere Lernkurve
PineconeReine Managed-Cloud (US-Anbieter)Null Betriebsaufwand, sehr schnelle SkalierungDatenresidenz mit DSGVO-Argumentation nötig

Für mittelständische Erstprojekte ist unsere Standardempfehlung pgvector — die Mehrzahl der Kundinnen hat ohnehin eine PostgreSQL-Datenbank im Einsatz, der Mehraufwand für die Vektor-Erweiterung ist eine Stunde Konfiguration, und die DSGVO-Diskussion entfällt komplett. Ab etwa fünf Millionen Chunks oder wenn komplexe Metadaten-Filter mit hoher Schreiblast gefragt sind, wechseln wir auf Qdrant. Pinecone empfehlen wir nur, wenn explizit Managed-Service-Komfort über Datenresidenz steht — selten der Fall im Mittelstand.

Embedding-Modelle — Auswahl und Kosten

Das Embedding-Modell bestimmt die Qualität jeder Suche im RAG-System, denn die Vektor-Datenbank kann nur so präzise antworten, wie das Embedding den semantischen Gehalt eines Texts abbildet. Vier Modell-Familien sind 2026 relevant:

Eine pragmatische Faustregel: solange keine streng vertraulichen Inhalte eingebettet werden, ist OpenAI text-embedding-3-large auf Azure die wirtschaftlich klügste Wahl — gute Qualität, EU-Standort, niedriger Preis. Für DSGVO-strenge Setups mit Verträgen, Personalakten oder Patientendaten ist self-hosted BGE-M3 die Empfehlung. Wichtig: das gewählte Modell muss konsequent eingesetzt werden, sowohl beim initialen Befüllen der Datenbank als auch bei jeder späteren Suchanfrage. Ein Wechsel des Embedding-Modells erfordert ein vollständiges Neu-Indizieren des gesamten Bestands.

Chunking-Strategien

Chunking — also das Zerlegen langer Dokumente in einzelne Vektor-bare Stücke — ist der unscheinbarste, aber qualitätskritischste Schritt im RAG-Aufbau. Schlechtes Chunking kann durch kein Embedding-Modell und kein Reranking ausgeglichen werden. Drei Strategien dominieren die Praxis:

Feste Größe mit Overlap. Der einfachste Ansatz: jedes Dokument wird in Stücke fester Token-Länge geteilt, typischerweise 400 bis 800 Token, mit 10 bis 15 Prozent Overlap zwischen aufeinander folgenden Chunks. Vorteil: deterministisch, schnell, in zwei Stunden implementiert. Nachteil: zerreißt logische Einheiten wie Tabellen, Vertragsklauseln und Code-Blöcke an beliebigen Stellen.

Struktur-bewusstes Chunking. Chunks folgen der Dokumentstruktur — also Überschriften-Hierarchie, Paragraphen-Grenzen, Vertragsklauseln oder Markdown-Sections. Bei technischer Dokumentation und juristischen Texten liefert dieser Ansatz regelmäßig 15 bis 30 Prozent bessere Retrieval-Ergebnisse. Implementierung dauert ein bis zwei Tage je Dokumenttyp.

Semantisches Chunking. Ein zusätzliches Modell entscheidet pro Absatz, ob er thematisch mit dem vorigen verschmolzen oder als neuer Chunk begonnen wird. Höchste Qualität, aber teuerster Index-Lauf und am schwersten zu warten. Empfehlung nur für sehr heterogene Bestände, in denen weder Token-Grenzen noch Struktur-Marker sinnvoll funktionieren.

Für 80 Prozent der Mittelstands-Projekte ist Struktur-bewusstes Chunking mit moderaten 600 Token Maximalgröße und 80 Token Overlap die richtige Wahl. Eine ergänzende Best Practice ist das Anreichern jedes Chunks mit Metadaten — Dokumenttyp, Version, Datum, Mandant, Sprache — damit die Retrieval-Logik später nach Mandant filtern oder veraltete Versionen ausschließen kann.

Bewertung der Antwort-Qualität — Recall, Precision, Faithfulness, RAGAS

Ein RAG-System ohne Mess-Setup ist ein Blindflug. Die folgenden vier Kennzahlen gehören in jedes RAG-Projekt vom ersten Prototyp an — sie liefern objektive Zahlen statt Bauchgefühl und machen Verbesserungen vergleichbar.

KennzahlWas sie misstZielwert (Produktion)
Context RecallAnteil relevanter Dokumente, die das Retrieval gefunden hatüber 70 Prozent
Context PrecisionAnteil tatsächlich relevanter Treffer unter den abgerufenenüber 60 Prozent
FaithfulnessAnteil der Antwort-Aussagen, die durch Quellen gedeckt sindüber 80 Prozent
Answer RelevancyWie direkt die Antwort die ursprüngliche Frage adressiertüber 75 Prozent

Das RAGAS-Framework — ein Open-Source-Projekt für RAG-Evaluation — automatisiert diese Messungen, indem es ein zweites Sprachmodell als Judge einsetzt. Praktisch heißt das: Sie pflegen einen Testdatensatz aus 50 bis 200 typischen Fragen mit Musterlösungen, RAGAS schickt sie durchs System und berechnet pro Frage die vier Kennzahlen. Diese Mess-Pipeline läuft idealerweise automatisch bei jeder Änderung am System — anderes Embedding-Modell, anderes Chunking, anderer Prompt — und liefert sofort eine Vergleichszahl.

Aus der Praxis: die häufigste Schwäche frischer RAG-Systeme ist niedriger Context Recall — also das Retrieval findet die richtigen Dokumente nicht. Die zweithäufigste ist niedrige Faithfulness — das Modell erfindet Inhalte trotz vorhandener Quellen. Beide Probleme haben unterschiedliche Lösungen, und ohne Messung wäre nicht zu entscheiden, welches zu adressieren ist.

Sicherheit und DSGVO

RAG-Systeme verarbeiten typischerweise die internen Wissensbestände — und damit das schützenswerteste Material im Unternehmen. Drei datenschutzrelevante Fragen sollten vor der Architektur-Entscheidung beantwortet sein.

Erstens die Embedding-Datenresidenz. Wer Vektor-Repräsentationen vertraulicher Dokumente an ein US-Embedding-Modell schickt, übermittelt damit verarbeitete personenbezogene oder geschäftskritische Daten in die USA. Embeddings sind zwar numerisch, aber nicht anonym — moderne Inversions-Verfahren können Originaltext mit hoher Treffsicherheit rekonstruieren. Folge: für DSGVO-strenge Inhalte gehören Embeddings entweder zu einem EU-gehosteten Anbieter wie Azure OpenAI in Frankfurt oder zu einem self-hosted Modell.

Zweitens die Mandanten-Trennung im Retrieval. Wenn ein RAG-System mehrere Abteilungen, Tochtergesellschaften oder Kunden bedient, muss die Such-Logik zwingend auf Berechtigungen filtern. Es genügt nicht, Berechtigungen erst in der UI zu prüfen — das LLM darf die fremden Chunks gar nicht erst sehen. Die saubere Lösung sind Metadaten-Filter direkt im Vektor-Datenbank-Query mit pro-Nutzerin gepflegten Berechtigungs-Tags.

Drittens das Logging. Jede Nutzeranfrage enthält potenziell sensible Informationen — eine Frage nach „Kündigung von Mitarbeiterin Müller“ ist selbst eine personenbezogene Verarbeitung. Logs sollten verschlüsselt, mandanten-getrennt und mit kurzen Aufbewahrungs-Fristen geführt werden. Für DSGVO-Konformität ist ein Logging-Konzept Pflicht-Bestandteil der Datenschutz-Folgenabschätzung. Tiefer zur DSGVO-Architektur in unserem Cluster zu KI und DSGVO und zur generellen Hosting-Frage im Vergleich LLM On-Premise vs. Cloud.

Reepa-RAG-Setup mit Claude und pgvector

Für mittelständische Erstprojekte empfehlen wir einen bewusst schlanken Stack, der in zwei bis vier Wochen produktionsreif gemacht werden kann. Der folgende Setup-Vorschlag deckt rund 80 Prozent unserer Kundenanforderungen ohne Anpassungen:

Dieser Stack ist bewusst undramatisch — keine exotischen Komponenten, keine Vendor-Abhängigkeit über zwei Lieferanten hinaus, klare DSGVO-Argumentation. Der erste Prototyp läuft typischerweise innerhalb von drei Wochen, produktionsreife Qualität mit RAGAS-Validierung erreichen wir nach acht bis zwölf Wochen. Wer die Prompt-Seite des Setups vertiefen möchte, findet die wichtigsten Muster in unserem Prompt-Engineering-Cluster.

Häufige Fragen

Was ist der Unterschied zwischen RAG und Fine-Tuning?

RAG ergänzt ein bestehendes Sprachmodell zur Laufzeit um relevante Dokumenten-Auszüge aus einer Vektor-Datenbank — das Modell selbst bleibt unverändert, die Wissensbasis ist austauschbar und sofort aktualisierbar. Fine-Tuning hingegen trainiert das Modell auf zusätzlichen Daten und verändert seine Gewichte dauerhaft. Für Wissens-Anwendungen im Mittelstand ist RAG fast immer der richtige Weg, weil Inhalte täglich aktualisiert werden, Quellen nachvollziehbar bleiben und keine teuren Trainings-Läufe nötig sind. Fine-Tuning lohnt sich vor allem für Stil- oder Format-Anpassungen, nicht für reines Faktenwissen.

Welche Vektor-Datenbank passt für ein mittelständisches RAG-Projekt?

Für die meisten Mittelständler empfehlen wir pgvector als Erweiterung einer ohnehin vorhandenen PostgreSQL-Datenbank — keine zusätzliche Komponente, keine zusätzlichen Kosten, DSGVO-konform self-hosted im eigenen Rechenzentrum oder in einer EU-Cloud. Qdrant ist die richtige Wahl bei höheren Volumina ab einigen Millionen Chunks oder wenn ausgefeilte Filter-Logik mit Metadaten gebraucht wird. Pinecone und Weaviate sind sinnvoll bei sehr großen Setups oder wenn Managed-Service-Komfort wichtiger ist als Datenresidenz. Eine isolierte Vektor-Datenbank nur des RAG wegen einzuführen, ist in 80 Prozent der Fälle Overkill.

Welche Embedding-Modelle sind 2026 sinnvoll für deutsche Inhalte?

Für deutsche Inhalte führen 2026 drei Modelle das Feld an. Voyage voyage-3-large liefert die beste Qualität auf deutschen Fachtexten, ist aber an einen US-Anbieter gebunden. OpenAI text-embedding-3-large bietet sehr gute deutsche Qualität, EU-Datenresidenz über Azure OpenAI und ist preislich attraktiv. Für DSGVO-strenge Setups empfehlen wir BGE-M3 oder Multilingual-E5-large als self-hosted Lösung auf einer kleinen GPU — die Qualität liegt nur leicht unter den US-Anbietern, dafür verlassen Embeddings das eigene Rechenzentrum nicht. Cohere embed-multilingual-v3 ist die Empfehlung für gemischtsprachige Korpora mit vielen Sprachen.

Wie groß sollten Chunks in einem RAG-System sein?

Eine bewährte Größe sind 400 bis 800 Token pro Chunk mit 10 bis 15 Prozent Overlap zwischen aufeinander folgenden Chunks. Kleinere Chunks erhöhen die Präzision, weil die abgerufenen Passagen punktgenauer sind, sie zerstören aber Kontext. Größere Chunks erhalten Kontext, verwässern aber das Embedding und führen zu unspezifischen Treffern. Für technische Dokumentation und Verträge funktionieren strukturbewusste Chunking-Strategien — also Chunks entlang von Überschriften, Paragraphen oder Vertragsklauseln — fast immer besser als feste Token-Grenzen.

Wie misst man die Qualität eines RAG-Systems objektiv?

Die wichtigsten Kennzahlen sind Recall, Precision und Faithfulness. Recall misst, ob das System die relevanten Dokumente überhaupt findet. Precision misst, ob unter den gefundenen Dokumenten viele tatsächlich passende sind. Faithfulness misst, ob die generierte Antwort sich treu an die abgerufenen Quellen hält oder Inhalte erfindet. Das RAGAS-Framework automatisiert diese Bewertung — es nutzt ein zweites Sprachmodell als Judge, vergleicht Antworten mit Quellen und liefert pro Frage einen Score. Ein produktives RAG-System sollte mindestens 80 Prozent Faithfulness, 70 Prozent Context Recall und unter 5 Prozent Hallucinations-Rate erreichen, bevor es echte Nutzerinnen sieht.

Bereit, Ihr internes Wissen KI-tauglich zu machen?

Sprechen wir 30 Minuten unverbindlich. Wir bewerten Ihren Dokumenten-Bestand, schlagen einen passenden RAG-Stack vor und liefern einen realistischen Fahrplan für die ersten 90 Tage — inklusive DSGVO-Argumentation, RAGAS-Test-Setup und Schätzung für Lizenz- und Infrastruktur-Kosten.

30-minütiges Gespräch vereinbaren
Hakan Akcan
Hakan Akcan · Gründer & Geschäftsführer Reepa Solutions

IT-Sicherheits- und Cloud-Architekt mit über zehn Jahren Erfahrung. Entwickelt mit seinem Team Reepa Security und baut RAG-Systeme für mittelständische Industrie-, Rechts- und Dienstleistungs-Unternehmen. Schreibt regelmäßig über KI-Architektur, DSGVO-konforme LLM-Integration und Mittelstands-Strategie.

Geprüft am: 22. Mai 2026 · Mehr über Hakan

Mehr aus unseren Wissens-Hubs

🛡
Sicherheit
Cybersecurity
15 Artikel →
🧠
Künstliche Intelligenz
KI im Mittelstand
15 Artikel →
Infrastruktur
Cloud & DevOps
15 Artikel →
💻
Entwicklung
Softwareentwicklung
15 Artikel →