1
2
3
4
5
6

Jedes Unternehmen kämpft mit der gleichen Herausforderung: Wissen steckt in Dokumenten, aber Dokumente sind schwer durchsuchbar.

Einleitung: Das ungelöste Problem der Unternehmensdokumentation

PDFs mit Tabellen, Handbücher mit Diagrammen, Protokolle mit handschriftlichen Notizen, Präsentationen mit visuellen Auswertungen. KlassischeSuchlösungen scheitern regelmäßig, weil sie nur Text verstehen ,keine Layouts,Grafiken, oder visuellen Kontext, der oft der Bedeutungsträger ist.

RAG (Retrieval-Augmented Generation) hat diese Herausforderung teilweise gelöst: Dokumente werden in Textchunks zerlegt, in einem Vektorindex gespeichert und bei Anfragen wird der relevante Kontext an ein Sprachmodell weitergegeben. Für rein textuelle Dokumente funktioniert das gut. Für alles andere entstehen Lücken und diese Lücken sind in realen Unternehmensdokumenten die Regel, nicht die Ausnahme.

Dieser Beitrag beleuchtet, wie sich RAG-Systeme weiterentwickeln: von text-basierter Extraktion hin zu visuellen Wissenssystemen, die Dokumente ganzheitlich verstehen.

Das Problem mit Text-only-RAG

Klassisches RAG folgt einer Pipeline: PDF einlesen → Text extrahieren (OCR) → Text in Chunks aufteilen → in Vektordatenbank speichern → bei Anfrage relevante Chunks abrufen → Antwort generieren.

Diese Pipeline hat mehrere Schwachstellen:

1. OCR-Fehler akkumulieren: Schlecht gescannte Dokumente, besondere Schriftarten oder handschriftliche Elemente führen zu fehlerhaften Textextraktionen. Fehler in der Extraktion werden direkt in den Wissensindex übertragen.

2. Strukturverlust: Tabellen werden zu Textreihen, Diagramme gehen verloren, Layouts (die semantische Information tragen) werden ignoriert. Eine Tabelle "Umsatz nach Region 2024" wird zu einer unstrukturierten Zahlenkolonne.

3. Kontextverlust durch Chunking: Dokumente werden in feste Segmente zerschnitten. Bezüge zwischen einer Grafik auf Seite 3 und dem erklärenden Text auf Seite 4 gehen dabei verloren.

Quelle: arXiv:2506.10380 — "TableRAG" (2025); arXiv:2507.12425 — "Advancing RAG for Structured Enterprise Data" (2025)

Der visuelle Ansatz: Dokumente als Bilder verstehen

ColPali (Faysse et al., 2024) verfolgt einen radikal anderen Ansatz: Statt Text aus Dokumenten zu extrahieren, werden Dokumentseiten direkt als Bilder analysiert. Ein Vision-Language-Modell (PaliGemma als Basismodell) erstellt für jede Seite eine mehrdimensionale visuelle Einbettung und das unterBerücksichtigung aller visuellen Elemente: Text, Tabellen, Grafiken, Layout.

Bei einer Suchanfrage wird die Textfrage in denselben Vektorraum eingebettet und mit den visuellen Seitenrepräsentationen verglichen. Das Ergebnis: Die Suche findet nicht nur die Seite mit dem passenden Textbegriff, sondern auch die Seite mit dem passenden Diagramm,  selbst wenn der genaueBegriff darin nicht vorkommt.

Praxisbeispiel: Ein Servicetechniker sucht in einem Maschinenhandbuch nach "Wartungsintervall Druckventil". Klassisches RAG findet die Textseite. Ein ColPali-System findet zusätzlich die Wartungsschema-Grafik auf Seite 47, in der das Druckventil bildlich dargestellt wird, ohne dass das Wort explizit im Bildtext vorkommt.

Das Modell ist Open Source (github.com/illuin-tech/colpali) und kann lokal betrieben werden.

Quellen: arXiv:2407.01449 — ColPali (Faysse et al., 2024); Hugging Face Blog: huggingface.co/blog/manu/colpali

Strukturierte Daten: Der blinde Fleck von RAG

Ein weiterer oft unterschätzter Bereich strukturierte Daten:  Tabellen in Excel, Datenbanken, CSV-Exporte, ERP-Berichte. Klassisches RAG ist für unstrukturierten Text optimiert und versagt bei Tabellenstrukturen.

Neuere Ansätze kombinieren RAG mit Text-to-SQL: Das Sprachmodell übersetzt natürlichsprachliche Anfragen in SQL-Abfragen, führt diese gegen eine Datenbank aus und nutzt die Ergebnisse für die Antwortgenerierung. So kann ein Mitarbeiter fragen: "Welche Lieferanten haben in Q3 die meistenReklamationen verursacht?" und es erhält eine datenbasierte Antwort, ohne SQL-Kenntnisse zu benötigen.

Das TableRAG-Framework (arXiv:2506.10380, 2025) kombiniert beide Welten: Textverstehen und Tabellenoperationen in einem hybriden Ansatz, der besonders für Unternehmen mit gemischten Dokumentenbeständen relevant ist.

Quelle: arXiv:2506.10380 — "TableRAG: A RAG Framework for Heterogeneous Document Reasoning" (2025)

Wann welcher Ansatz?

Dokumenttyp

Empfohlener Ansatz

Rein textuelle PDFs (Berichte, Verträge)

Klassisches Text-RAG

Dokumente mit Tabellen und Diagrammen

Visuelles RAG (ColPali-Ansatz)

Strukturierte Datenbanken / Excel

Text-to-SQL / TableRAG

Gemischte Dokumentenlandschaft

Hybrides System

 

Die Entscheidung hängt nicht von der Technologie ab, sondern von der Frage: In welcher Form liegt das Wissen vor, das ich erschließen will?

Datensouveränität: Lokale Wissenssysteme

Ein zentrales Argument für selbst betriebene Wissenssysteme: Unternehmensdokumente enthalten oft sensible Informationen w.z.B. Lieferantenverträge, Produktionspläne, Mitarbeiterunterlagen. Diese Daten in externe KI-APIs einzuspeisen (auch für eine Suche) birgt regulatorische und geschäftliche Risiken.

Open-Source-Lösungen wie ColPali, kombiniert mit lokalen Vektordatenbanken (z.B. Qdrant, Milvus) und lokal betriebenen LLMs (via Ollama), ermöglichen vollständig On-Premise-Wissenssysteme. Die gesamte Kette, Dokumentenanalyse, Indexierung, Suche, Antwortgenerierung, bleibt imUnternehmensnetz.

Quelle: Qdrant Open Source: github.com/qdrant/qdrant; Milvus: github.com/milvus-io/milvus

Einstieg: Was ist realistisch?

Für den Einstieg empfiehlt sich eine pragmatische Herangehensweise:

  1. Pilotprojekt: Einen klar abgegrenzten Dokumententyp auswählen (z.B. technische Handbücher einer Maschinenreihe)
  1. Benchmark erstellen: 20–30 typische Fragen formulieren, die Mitarbeiter stellen würden
  1. System aufbauen: Klassisches Text-RAG als Baseline, dann visuelles RAG zum Vergleich
  1. Qualität messen: Antwortqualität, Abrufgenauigkeit (Recall), Nutzerzufriedenheit

Dieser iterative Ansatz vermeidet teure Fehlinvestitionen und schafft nachvollziehbare Entscheidungsgrundlagen.

Fazit

Wissensmanagement mit KI geht über "Text einfügen, Frage stellen" hinaus. Unternehmen, die ihre Dokumentenbestände wirklich erschließen wollen, müssen verstehen, wie ihr Wissen vorliegt und das passende Retrieval-System dafür wählen. Visuelle Retrieval-Ansätze wie ColPali sind nicht mehrForschungsprojekte, sondern einsatzbereite, Open-Source-Technologien, die auf eigener Infrastruktur laufen können.

Weiterführende Ressourcen:

  1. arXiv:2407.01449 — ColPali: Efficient Document Retrieval with Vision Language Models
  2. arXiv:2506.10380 — TableRAG (2025)
  3. arXiv:2507.12425 — Advancing RAG for Structured Enterprise Data (2025)
  4. github.com/illuin-tech/colpali — ColPali Open Source
  5. github.com/qdrant/qdrant — Qdrant Vektordatenbank (Open Source)
07.04.26

Weitere Informationen

Kontakt

David Golchinfar

1
2
3
4
5
6
 
Das Mittelstand-Digital Netzwerk bietet mit den Mittelstand-Digital Zentren und der Initiative IT-Sicherheit in der Wirtschaft umfassende Unterstützung bei der Digitalisierung. Kleine und mittlere Unternehmen profitieren von konkreten Praxisbeispielen und passgenauen, anbieterneutralen Angeboten zur Qualifikation und IT-Sicherheit. Das Bundesministerium für Wirtschaft und Energie ermöglicht die kostenfreie Nutzung der Angebote von Mittelstand-Digital. Weitere Informationen finden Sie unter www.mittelstand-digital.de.