Generative KI vs. Extraktion: Dokumentenprüfung im Vergleich
GPT-4, Claude, OCR, IDP: Welche Technologie prüft Geschäftsdokumente? Ehrlicher Vergleich von Stärken, Schwächen und dem Fall für hybride Architektur.

Diesen Artikel zusammenfassen mit
Die Debatte zwischen generativer KI und traditioneller Extraktionstechnologie für die Dokumentenprüfung hat einen kritischen Wendepunkt erreicht. Da LLMs wie GPT-4 und Claude Bildfähigkeiten erlangen, gehen viele Engineering-Teams davon aus, dass sie Legacy-OCR-Pipelines vollständig ersetzen können. Die Realität ist differenzierter – und die Risiken einer falschen Architekturentscheidung bemessen sich in regulatorischem Risiko, finanziellem Verlust und Monaten verschwendeter Entwicklung. Dieser Artikel bietet einen ehrlichen, technischen Vergleich beider Ansätze und erklärt, warum hybride Architektur der einzige gangbare Weg für produktive Dokumentenprüfung ist.
Nein, GPT-4 kann Ihre Finanzierungsvorgänge nicht allein prüfen
LLMs halluzinieren bei numerischen Feldern mit einer Fehlerrate von 1–3 % — in einem Finanzierungsworkflow kann ein einzelner Transpositionsfehler (125.000 € statt 152.000 €) einen Kredit gegen den falschen Betrag freigeben.
Der EU AI Act (Verordnung (EU) 2024/1689, anwendbar ab August 2026) stuft KI-Systeme für die Bonitätsbewertung als Hochrisiko-KI ein (Anhang III Nr. 5b); LLMs ohne deterministische Regel-Engine erfüllen die Anforderungen an Auditierbarkeit und Reproduzierbarkeit nicht. (EUR-Lex EU AI Act) In einem Finanzierungsworkflow könnte dieser einzelne Fehler einen Kredit gegen den falschen Betrag freigeben.
Legacy-OCR-Pipelines extrahieren Zeichen mit hoher Genauigkeit, verstehen aber nichts. Sie werden „Ausstellungsdatum: 14.02.2026" korrekt transkribieren, ohne zu wissen, ob dieses Datum das Dokument abgelaufen oder irrelevant macht.
Zuverlässige Dokumentenprüfung erfordert eine hybride Architektur, die die Stärken beider Technologien kombiniert und ihre strukturellen Schwächen kompensiert.
Die 3 Technologieschichten der Dokumentenverarbeitung
Drei Technologieschichten decken unterschiedliche Fähigkeitslücken ab — keine einzelne Schicht reicht für zuverlässige, auditierbare Dokumentenprüfung in regulierten Umgebungen aus.
Die BaFin-Auslegungs- und Anwendungshinweise zum GwG (aktualisiert November 2024) verlangen von verpflichteten Instituten angemessene technologische Mittel zur Verifizierung von Dokumenten und Identitäten; manuelle Prüfung allein ist nicht mehr als angemessen anerkannt. (BaFin GwG-Hinweise 2024)
Schicht 1: OCR und Extraktions-Engines
Die Arbeitspferde der Dokumentendigitalisierung. Tesseract (Open Source), AWS Textract, Google Document AI und Azure AI Document Intelligence wandeln Pixel in strukturierten Text um. Moderne Engines erreichen 98–99 % Zeichenerkennungsrate bei sauberen Scans. Ihre Limitation ist semantische Blindheit.
Schicht 2: Klassisches Intelligent Document Processing (IDP)
Plattformen wie ABBYY Vantage, Kofax und Hyperscience fügen eine Klassifizierungs- und Feldextraktionsschicht über OCR hinzu. Sie repräsentieren den aktuellen Enterprise-Standard – zuverlässig, auditierbar, aber starr.
Schicht 3: Generative KI (LLMs mit Vision)
GPT-4V, Claude, Gemini – Large Language Models mit Bildfähigkeiten, die Dokumente lesen, interpretieren und darüber schlussfolgern können. Sie bringen echtes kontextuelles Verständnis. Ihre Limitation ist das Gegenteil von OCR: Sie verstehen Bedeutung, können aber keine Präzision bei spezifischen Werten garantieren.
Was generative KI gut macht
Generative KI übertrifft klassische OCR bei Klassifizierung (>97 %), Kontextverständnis und mehrsprachiger Verarbeitung — versagt aber bei präziser Betragsextraktion und arithmetischer Verifizierung.
| Aufgabe | Leistung | Warum es funktioniert |
|---|---|---|
| Dokumentenklassifizierung | Ausgezeichnet (>97 %) | LLMs generalisieren aus Kontext |
| Kontextverständnis | Ausgezeichnet | Semantisches Reasoning |
| Unstrukturierte Feldextraktion | Gut (85–92 %) | Handhabt Freiformate, Handschrift |
| Fragebeantwortung zu Dokumenten | Ausgezeichnet | Natürlichsprachliche Schnittstelle |
| Mehrsprachige Verarbeitung | Ausgezeichnet | Ein Modell für 50+ Sprachen |
Was generative KI schlecht macht
Bei Rechnungen mit mehr als 10 Positionen liegt die LLM-Fehlerrate bei arithmetischen Verifizierungen zwischen 15–20 %; bei der Betragsextraktion beträgt die numerische Fehlerrate 1–3 %.
Präzise Betragsextraktion: Halluzinationen sind keine Bugs
LLMs sind probabilistische Textgeneratoren. Bei der Extraktion von „1.250,00 €" aus einer gescannten Rechnung liest das Modell die Zahl nicht – es prognostiziert die wahrscheinlichste Token-Sequenz. Das bedeutet: Ziffernvertauschung (1.250 € wird zu 1.520 €), Rundung und Approximation, Währungsverwechslung.
Arithmetische Verifizierung: LLMs prognostizieren, rechnen aber nicht
LLMs führen keine Arithmetik aus. Sie prognostizieren, wie die Antwort „aussehen sollte". Die Fehlerrate bei Rechnungen mit mehr als 10 Positionen liegt bei 15–20 %.
Dokumentenübergreifende Konsistenz: Nicht für N-Dokument-Vergleich konzipiert
LLMs verarbeiten Dokumente sequentiell oder in begrenzten Kontextfenstern. Sie sind architektonisch nicht darauf ausgelegt, einen strukturierten Zustand über N Dokumente aufrechtzuerhalten.
Reproduzierbarkeit: Gleiches Dokument, unterschiedliche Ergebnisse
Dasselbe Dokument zehnmal durch eine LLM-Pipeline laufen lassen ergibt leicht unterschiedliche Ergebnisse. Für Prüfpfade ist das ein Problem. Aufsichtsbehörden erwarten deterministische Ergebnisse.
Auditierbarkeit: Nachträgliche Erklärung ist keine deterministische Logik
In regulierten Branchen (Banken, Versicherungen, Leasing) müssen Prüfteams jede Entscheidung auf eine spezifische Regel zurückführen können. Der EU AI Act (Verordnung 2024/1689) verstärkt diese Anforderung durch Transparenz- und Erklärbarkeitsmandate für KI-Hochrisikosysteme.
Die Geschäftsregel-Engine: Das fehlende Stück
Deterministische Geschäftslogik ist die Schicht, die weder OCR noch LLMs bieten — und die einzige, die die von Aufsichtsbehörden wie der BaFin geforderte Reproduzierbarkeit und Auditierbarkeit garantiert.
Beispielregel für Finanzierung: Der Finanzierungsbetrag im Leasingvertrag muss dem Betrag im Lieferantenangebot entsprechen, mit einer Toleranz von 1 €.
Diese Regel hat drei entscheidende Eigenschaften: Sie ist deterministisch (gleiche Eingaben = gleiches Ergebnis), auditierbar (Entscheidung rückverfolgbar zu spezifischer Regel) und konfigurierbar (Toleranz änderbar ohne Modell-Retraining).
Die hybride Architektur
Hybride Architektur kombiniert die Stärken aller drei Technologieschichten: generative KI für Klassifizierung, spezialisierte OCR für präzise Extraktion und eine deterministische Regel-Engine für verifizierbare Prüfentscheidungen.
Dokumenteneingabe
|
[SCHICHT 1: Generative KI] — Klassifizierung, Layout-Verständnis, Anomalie-Screening
|
[SCHICHT 2: Spezialisierte OCR] — Feldgenaue Extraktion, zeichengenaue Daten
|
[SCHICHT 3: Regel-Engine] — Dokumentenübergreifende Prüfungen, Arithmetik, Schwellenwerte
|
[SCHICHT 4: Externe APIs] — Handelsregisterabfrage, Sanktionslisten, Datenbankverifizierung
|
Entscheidung (Genehmigt / Prüfung / Abgelehnt)
Endvergleich
| Kriterium | OCR allein | Klassisches IDP | LLM allein | Hybride Architektur |
|---|---|---|---|---|
| Extraktionsgenauigkeit (Beträge, Daten) | Hoch (98 %+) | Hoch (96–99 %) | Mittel (80–92 %) | Sehr hoch (99 %+) |
| Dokumentenverständnis | Keines | Eingeschränkt | Ausgezeichnet | Ausgezeichnet |
| Dokumentenübergreifende Validierung | Keine | Einfach | Unzuverlässig | Umfassend |
| Auditierbarkeit | Voll (deterministisch) | Voll (deterministisch) | Niedrig (probabilistisch) | Voll (Regel-Engine-Schicht) |
| Anpassbarkeit an neue Dokumententypen | Entwicklung nötig | Retraining (Wochen) | Sofort (Zero-Shot) | Schnell (Tage) |
| Regulatorische Compliance-Readiness | Teilweise | Gut | Allein unzureichend | Vollständig |
Häufig gestellte Fragen
Kann ich ChatGPT oder Claude in Produktion zur Dokumentenprüfung einsetzen?
Nicht als eigenständige Lösung. LLMs halluzinieren bei Beträgen (1–3 % numerische Fehlerrate) und garantieren keine reproduzierbaren Ergebnisse. Zuverlässige Prüfung erfordert die Kombination eines LLM mit spezialisierter OCR und einer deterministischen Regel-Engine.
Was ist eine hybride Architektur für Dokumentenprüfung?
Eine Verarbeitungspipeline mit vier komplementären Schichten: generative KI für Klassifizierung und Verständnis, spezialisierte OCR für präzise numerische Extraktion, eine Geschäftsregel-Engine für deterministische Prüfungen und externe APIs für Abgleich mit amtlichen Datenbanken.
Warum können LLMs keine Geschäftsregel-Engines ersetzen?
Ein LLM prognostiziert das wahrscheinlichste Ergebnis; eine Regel-Engine führt deterministische Logik aus. Für kritische Prüfungen (Vertragsbetrag = Vereinbarungsbetrag, Handelsregisterauszug unter 3 Monate alt) garantiert nur eine Regel-Engine die von Aufsichtsbehörden geforderte Reproduzierbarkeit und Auditierbarkeit.
CheckFile: Von Anfang an hybrid gebaut
CheckFile wurde von Grund auf als hybride Architektur konzipiert: generative KI für Klassifizierung und Verständnis, spezialisierte Extraktion für Präzision, eine deterministische Regel-Engine für Validierung und externe API-Integration für Anreicherung.
Entdecken Sie unsere Dokumentenprüfungsplattform oder prüfen Sie unsere Preise.
Weiterführende Lektüre: Wie hybride Architektur in der Praxis funktioniert, erfahren Sie in unserem Artikel zur dokumentenübergreifenden Validierung jenseits von OCR. Den Business Case quantifizieren Sie mit unserer Analyse der wahren Kosten manueller Dokumentenprüfung.