Generatieve AI vs Extractie: Documentvalidatie
GPT-4, Claude, OCR, IDP: welke technologie valideert zakelijke documenten? Eerlijke vergelijking van sterke en zwakke punten, en de noodzaak van hybride architectuur.

Dit artikel samenvatten met
LLM's zoals GPT-4 en Claude hallucineren numerieke waarden in 1-3% van de gevallen — een foutpercentage dat diskwalificerend is voor productie-documentvalidatie in gereguleerde sectoren maar onzichtbaar in typische demo's. De werkelijkheid is dat geen enkele technologie — OCR, IDP of generatieve AI — zelfstandig voldoet aan de auditeerbaarheidseisen van financiële toezichthouders. Hybride architectuur is de enige levensvatbare aanpak voor compliante documentvalidatie.
DNB en AFM publiceerden in april 2024 gezamenlijke guidance over AI-impact in de financiële sector, met als conclusie dat instellingen die AI inzetten voor documentverwerking moeten voldoen aan zes principes: soundness, accountability, fairness, ethics, skills en transparency — vereisten waaraan een LLM-only aanpak per definitie niet voldoet.
Nee, GPT-4 Kan Uw Financieringsdossiers Niet Zelfstandig Valideren
GPT-4 haalt in tests gemiddeld 80-92% nauwkeurigheid op ongestructureerde veldextractie — bruikbaar voor informatieve samenvatting, diskwalificerend voor financiële validatie waar een numerieke fout van € 27.000 (€ 125.000 gelezen als € 152.000) een lening kan goedkeuren op basis van incorrect bedrag.
De EU AI Act (Verordening 2024/1689), van kracht per 2 augustus 2026, classificeert AI-systemen gebruikt bij kredietwaardigheidsbeoordelingen en financiële documentverwerking als hoog-risico — met verplichtingen voor auditeerbaarheid, menselijk toezicht en transparantie die een LLM-only aanpak niet kan invullen.
Het tegenovergestelde uiterste is even gebrekkig. Legacy OCR-pipelines extraheren tekens met hoge getrouwheid maar begrijpen niets. Ze transcriberen "Datum van uitgifte: 14-02-2026" zonder te weten of die datum het document verlopen maakt voor het dossier.
Het tegenovergestelde uiterste is even gebrekkig. Legacy OCR-pipelines extraheren tekens met hoge getrouwheid maar begrijpen niets. Ze zullen getrouw "Datum van uitgifte: 14-02-2026" transcriberen zonder te weten of die datum het document verlopen of irrelevant maakt voor het dossier.
Betrouwbare documentvalidatie vereist een hybride architectuur die de sterke punten van beide technologieen combineert en tegelijkertijd hun structurele zwakheden compenseert. Dit artikel is een eerlijke uitsplitsing van waar elke laag excelleert, waar het faalt, en hoe ze samenpassen.
De 3 Technologielagen voor Documentverwerking
Drie onderscheiden technologielagen domineren documentverwerking, elk met specifieke sterke en zwakke punten: OCR-engines voor tekennauwkeurigheid (98-99%), klassieke IDP voor veldextractie op bekende documenttypen, en generatieve AI voor contextueel begrip op onbekende formaten.
De AI Act verplicht aanbieders van General Purpose AI-modellen tot het opstellen van technische documentatie inclusief testresultaten, evaluatierapporten en een beleid voor auteursrecht — verplichtingen die direct relevant zijn voor engineeringteams die LLM's inzetten in documentverwerkingspipelines.
Laag 1: OCR- en Extractie-Engines
Dit zijn de werkpaarden van documentdigitalisering. Tesseract (open source), AWS Textract, Google Document AI en Azure AI Document Intelligence zetten pixels om in gestructureerde tekst. Ze excelleren in tekenniveaunauwkeurigheid op gedrukte documenten -- moderne engines bereiken 98-99% tekenherkenningspercentages op schone scans. Hun beperking is semantische blindheid: ze extraheren wat er geschreven staat zonder te begrijpen wat het betekent.
Laag 2: Klassieke Intelligente Documentverwerking (IDP)
Platforms zoals ABBYY Vantage, Kofax en Hyperscience voegen een classificatie- en veldextractielaag toe bovenop OCR. Ze gebruiken supervised machine learning-modellen getraind op specifieke documenttypen om vooraf gedefinieerde velden te lokaliseren en extraheren (factuurnummer, totaalbedrag, vervaldatum). Ze vertegenwoordigen de huidige bedrijfsstandaard -- betrouwbaar, auditeerbaar, maar rigide. Het toevoegen van een nieuw documenttype of veld vereist hertraining, en ze worstelen met ongestructureerde of vrije-vorminhoud.
Laag 3: Generatieve AI (LLM's met Visie)
GPT-4V, Claude, Gemini -- grote taalmodellen met visuele mogelijkheden die documenten kunnen lezen, interpreteren en erover redeneren. Ze brengen iets oprecht nieuws naar de stack: contextueel begrip. Ze kunnen een document classificeren dat ze nooit eerder hebben gezien, vragen beantwoorden over de inhoud en inconsistenties identificeren in natuurlijke taal. Hun beperking is het omgekeerde van OCR: ze begrijpen betekenis maar kunnen geen precisie garanderen bij specifieke waarden.
Wat Generatieve AI Goed Doet
Generatieve AI bereikt meer dan 97% nauwkeurigheid op documentclassificatie en verwerkt ongestructureerde veldextractie op 85-92% — een echte doorbraak voor documenttypen die geen per-type training vereisen en voor meertalige verwerking zonder herconfiguratie.
| Taak | Prestatie | Waarom het Werkt |
|---|---|---|
| Documentclassificatie | Uitstekend (>97% op diverse typen) | LLM's generaliseren vanuit context; geen per-type training nodig |
| Contextbegrip | Uitstekend | Semantisch redeneren is waar transformers voor zijn gebouwd |
| Ongestructureerde veldextractie | Goed (85-92%) | Verwerkt vrije-vormlay-outs, handgeschreven notities, atypische formaten |
| Vraagbeantwoording over documenten | Uitstekend | Natuurlijke-taalinterface naar documentinhoud |
| Anomaliedetectie (visueel) | Goed | Kan ongebruikelijke lay-outs, ontbrekende secties, visuele inconsistenties markeren |
| Meertalige verwerking | Uitstekend | Enkel model verwerkt 50+ talen zonder configuratie |
Voor toepassingen zoals postruimtetriage of het genereren van mensleesbare samenvattingen is generatieve AI een oprechte stap vooruit. Een enkele prompt kan maanden aan regelschrijven voor classificatie alleen vervangen.
Wat Generatieve AI Slecht Doet
Vier structurele beperkingen diskwalificeren generatieve AI als zelfstandige oplossing voor compliante documentvalidatie: hallucinaties bij bedragen (1-3% foutpercentage), niet-reproduceerbare resultaten, onbetrouwbare kruisdocumentcontroles en niet-auditeerbare beslissingslogica.
Precieze Bedragextractie: Hallucinaties Zijn Geen Bugs, Het Zijn Features
LLM's zijn probabilistische tekstgeneratoren. Bij het extraheren van "€ 1.250,00" uit een gescande factuur leest het model het getal niet -- het voorspelt de meest waarschijnlijke tokenreeks gegeven de omringende context. Dit betekent:
- Cijfertranspositie: € 1.250 wordt € 1.520. Het model heeft geen mechanisme om te verifieren dat het de exacte tekens heeft gereproduceerd.
- Afronding en benadering: € 14.873,42 wordt € 14.900. Het model geeft de voorkeur aan "ronde" getallen die statistisch vaker voorkomen in de trainingsdata.
- Valutaverwarring: In meertalige documenten kunnen $ en EUR onopgemerkt worden verwisseld.
Voor informatieve extractie (samenvatting van een rapport) kan een foutpercentage van 2% op bedragen acceptabel zijn. Voor financiele validatie (komt het leningbedrag overeen met de overeenkomst?) is het diskwalificerend.
Rekenkundige Verificatie: LLM's Voorspellen, Ze Rekenen Niet
Vraag GPT-4 of de regelitems op een factuur optellen tot het opgegeven totaal. Het zal u een antwoord geven. Dat antwoord zal in circa 15-20% van de gevallen fout zijn bij facturen met meer dan 10 regelitems. LLM's voeren geen rekenkunde uit. Ze voorspellen hoe het antwoord eruit "zou moeten zien" op basis van patroonmatching. Dit is een fundamentele architectuurbeperking, geen oplosbare bug.
Kruisdocumentrekenkunde -- verifieren dat uitbetalingsbedragen over drie contracten optellen tot het faciliteitstotaal -- is nog minder betrouwbaar. De fout cumuleert met elk extra document.
Kruisdocumentconsistentie: Niet Ontworpen voor N-Document Vergelijking
Een financieringsdossier kan 8-15 documenten bevatten. De bedrijfsnaam op het KVK-uittreksel moet overeenkomen met de bankgegevens. De bestuurder vermeld in de statuten moet overeenkomen met de ondertekenaar op de garantie. De financiele cijfers in de balans moeten aansluiten bij de belastingaangifte.
LLM's verwerken documenten sequentieel of in beperkte contextvensters. Ze zijn architectureel niet ontworpen om een gestructureerde staat te onderhouden over N documenten en paarsgewijze consistentie te verifieren. Ze kunnen worden gevraagd dit te proberen, maar de betrouwbaarheid daalt sterk naarmate het aantal kruisverwijzingen toeneemt.
Reproduceerbaarheid: Zelfde Document, Verschillende Resultaten
Verwerk hetzelfde document tien keer door een LLM-extractiepipeline. U krijgt elke keer licht andere resultaten -- veldformatteervariaties, verschillende betrouwbaarheidsformuleringen, af en toe andere waarden. Dit is inherent aan probabilistische generatie. Temperatuurinstellingen helpen maar elimineren variantie niet volledig.
Voor audittrails is dit een probleem. Toezichthouders verwachten deterministische uitkomsten: dezelfde invoer moet dezelfde uitvoer produceren. Een validatiebeslissing die verandert tussen dinsdag en woensdag, zonder wijziging van het onderliggende document, is niet auditeerbaar.
Auditeerbaarheid: Post-Hoc Uitleg Is Geen Deterministische Logica
Wanneer een LLM een document afwijst, kan het uitleggen waarom in vloeiende natuurlijke taal. Maar die uitleg wordt gegenereerd na de beslissing, niet ervan afgeleid. Het model past Regel 4.2.1 van uw compliancebeleid niet toe -- het produceert tekst die lijkt op wat een dergelijke toepassing eruit zou zien.
In gereguleerde sectoren (bankwezen, verzekeringen, leasing) moeten auditteams elke beslissing kunnen herleiden tot een specifieke regel. "De AI zei het" is geen compliance-waardige rechtvaardiging, ongeacht hoe welbespraakt de uitleg is. De EU AI Act (Verordening 2024/1689) versterkt deze eis door transparantie en verklaarbaarheid te mandateren voor AI-systemen met hoog risico, waaronder AI gebruikt bij kredietwaardigheidsbeoordelingen en financiele documentverwerking.
De Bedrijfsregelengine: Het Ontbrekende Puzzelstuk
Een deterministische bedrijfsregelengine is de laag die noch OCR noch generatieve AI biedt — zij converteert geextraheerde gegevens naar auditeerbare compliancebeslissingen die toezichthouders accepteren.
Overweeg een eenvoudige validatieregel voor financiering van bedrijfsmiddelen:
Het gefinancierde bedrag op het leasecontract moet gelijk zijn aan het bedrag op de leveranciersofferte, met een tolerantie van € 1.
Deze regel heeft drie eigenschappen die ertoe doen:
- Het is deterministisch. Gegeven dezelfde invoer produceert het altijd dezelfde uitvoer.
- Het is auditeerbaar. De beslissing kan worden herleid tot een specifieke regel met specifieke drempels.
- Het is configureerbaar. De tolerantie van € 1 kan worden gewijzigd naar € 0 of € 10 zonder een model te hertrainen.
Een LLM kan geen van deze eigenschappen garanderen. Het kan de regel benaderen ("de bedragen lijken consistent"), maar benadering is geen validatie. Wanneer toezichthouders uw proces auditen, is "de bedragen lijken consistent" niet equivalent aan "Contractbedrag (€ 45.230,00) = Offertebedrag (€ 45.230,00), delta € 0,00, binnen tolerantie van € 1,00."
Bedrijfsregels zijn onglamoureus. Het zijn IF/THEN-statements, drempelvergelijkingen, regex-validaties, datumrekenkunde. Maar ze vormen de ruggengraat van elk conform documentvalidatieproces. Geen hoeveelheid generatieve-AI-sophisticatie vervangt de behoefte aan een regelengine die deterministische logica uitvoert op geextraheerde gegevens.
De Hybride Architectuur: Hoe de Puzzelstukken Samenpassen
Hybride architectuur bereikt meer dan 99% numerieke extractienauwkeurigheid door vier lagen te orkestreren: generatieve AI voor classificatie, gespecialiseerde OCR voor precieze extractie, een regelengine voor deterministische validatie en externe API's voor kruisverwijzing.
DNB en AFM verwachten dat Nederlandse financiële instellingen AI-systemen voor documentverwerking voorzien van volledige audittrails, deterministische beslissingslogica en menselijk toezicht — vereisten die alleen hybride architectuur kan invullen.
Documentinvoer
|
[LAAG 1: Generatieve AI] — Classificatie, lay-outbegrip, anomaliescreening
|
[LAAG 2: Gespecialiseerde OCR] — Veldniveauextractie, tekennauwkeurige gegevens
|
[LAAG 3: Regelengine] — Kruisdocumentcontroles, rekenkunde, drempels, regelgeving
|
[LAAG 4: Externe API's] — Registeropzoeking, sanctiecontrole, databaseverificatie
|
Beslissing (Accepteer / Beoordeel / Wijs Af)
Laag 1 (Generatieve AI) verwerkt wat begrip vereist: documenttypen classificeren, niet-standaard lay-outs interpreteren, anomalieen markeren. Laag 2 (Gespecialiseerde OCR) verwerkt wat precisie vereist: exacte bedragen, datums en registratienummers extraheren. Laag 3 (Regelengine) verwerkt wat determinisme vereist: verifieren dat geextraheerde waarden voldoen aan bedrijfs- en regelgevingsregels. Laag 4 (Externe API's) verwerkt wat externe waarheid vereist: bevestigen van bedrijfsregistratie bij het KVK Handelsregister en sanctielijsten controleren.
Elke laag is onafhankelijk testbaar, auditeerbaar en vervangbaar. Als een betere OCR-engine verschijnt, vervangt u Laag 2 zonder de regelengine aan te raken. Als regelgeving verandert, werkt u Laag 3 bij zonder een AI-model te hertrainen.
Eindvergelijking: Vier Benaderingen van Documentvalidatie
| Criterium | OCR Alleen | Klassieke IDP | LLM Alleen | Hybride Architectuur |
|---|---|---|---|---|
| Extractienauwkeurigheid (bedragen, datums) | Hoog (98%+) | Hoog (96-99%) | Matig (80-92%) | Zeer Hoog (99%+) |
| Documentbegrip | Geen | Beperkt (alleen getrainde typen) | Uitstekend | Uitstekend |
| Kruisdocumentvalidatie | Geen | Basis (voorgedefinieerde regels) | Onbetrouwbaar | Volledig |
| Auditeerbaarheid | Volledig (deterministisch) | Volledig (deterministisch) | Laag (probabilistisch) | Volledig (regelenginelaag) |
| Aanpasbaarheid aan nieuwe documenttypen | Vereist ontwikkeling | Vereist hertraining (weken) | Direct (zero-shot) | Snel (dagen) |
| Regelgevingscompliancebereidheid | Gedeeltelijk (alleen extractie) | Goed | Onvoldoende alleen | Volledig |
Het patroon is duidelijk. Geen enkele technologiekolom voldoet aan alle zes criteria. Alleen de hybride benadering bereikt "zeer hoog" of "volledig" over de gehele linie. Dit is geen marketingconclusie -- het is een architecturele realiteit.
De Kosten van een Verkeerde Keuze
Bij een volume van 10.000 dossiers per maand produceert een LLM-only aanpak 300 dossiers met incorrecte financiële gegevens (3% foutpercentage) — elke regulatoire audit die de niet-deterministische beslissingstrail markeert kost gemiddeld zes maanden herstelengineering.
EU AI Act Art. 9 (hoog-risico systemen) verplicht financiële instellingen tot een risicobeheerssysteem voor AI, inclusief logging van alle invoer- en uitvoergegevens van hoog-risico AI-systemen — een verplichting van kracht per 2 augustus 2026 die nu al architectuurkeuzes stuurt.
LLM-only benadering: Een fintech bouwt validatie volledig op GPT-4V. In productie bevatten 3% van de geëxtraheerde bedragen fouten. De eerste regulatoire audit markeert de niet-deterministische beslissingstrail. Herstel kost zes maanden engineering.
OCR-only benadering: Een leasingmaatschappij deployt Textract. Extractie is accuraat, maar elk nieuw documenttype vereist weken ontwikkeling. Het operationele team onderhoudt een parallel handmatig proces voor "uitzonderingen" die 30% van het volume uitmaken.
Hybride benadering: Classificatie past zich direct aan nieuwe documenttypen aan. Extractie is tekennauwkeurig. Validatie is deterministisch en auditeerbaar. Wanneer toezichthouders vragen "waarom is dit dossier goedgekeurd?", verwijst het antwoord naar specifieke regels toegepast op specifieke geextraheerde waarden.
Veelgestelde Vragen
Kan ik ChatGPT of Claude gebruiken om documenten in productie te valideren?
Niet als zelfstandige oplossing. LLM's excelleren in classificatie en contextueel begrip, maar ze hallucineren bij bedragen (1-3% numeriek foutpercentage) en garanderen geen reproduceerbare resultaten. Betrouwbare validatie vereist het combineren van een LLM met gespecialiseerde OCR en een deterministische regelengine.
Wat is een hybride architectuur voor documentvalidatie?
Het is een verwerkingspipeline die vier complementaire lagen orkestreert: generatieve AI voor classificatie en begrip, gespecialiseerde OCR voor precieze numerieke extractie, een bedrijfsregelengine voor deterministische controles, en externe API's voor kruisverwijzing tegen officiele databases. Elke laag compenseert de zwakheden van de andere.
Waarom kunnen LLM's geen bedrijfsregelengines vervangen?
Een LLM voorspelt het meest waarschijnlijke resultaat; een regelengine voert deterministische logica uit. Voor kritieke controles (contractbedrag = overeenkomstbedrag, KVK-uittreksel minder dan 3 maanden oud, consistente bedrijfsnummers over documenten heen), garandeert alleen een regelengine de reproduceerbaarheid en auditeerbaarheid die toezichthouders eisen.
Hoe accuraat is een hybride architectuur vergeleken met een LLM alleen?
Hybride architectuur bereikt meer dan 99% numerieke extractienauwkeurigheid, versus 80-92% voor een LLM alleen. Voor kruisdocumentverificatie is de kloof nog groter: LLM's worden onbetrouwbaar voorbij 3-4 documenten, terwijl hybride architectuur dossiers met 15+ documenten consistent verwerkt.
CheckFile: Hybride Gebouwd Vanaf Dag Een
CheckFile is niet gebouwd als een OCR-tool waaraan AI is toegevoegd, of als een LLM-wrapper waaraan extractie is toegevoegd. Het is van de grond af ontworpen als een hybride architectuur: generatieve AI voor classificatie en begrip, gespecialiseerde extractie voor precisie, een deterministische regelengine voor validatie, en externe API-integratie voor verrijking.
Het resultaat is een platform dat documenten classificeert die het nooit heeft gezien, bedragen extraheert tot op de cent, bedrijfsregels valideert tot op de letter, en audittrails produceert die toezichthouders accepteren. Geen gehallucineerde bedragen. Geen niet-deterministische beslissingen. Geen "de AI zei het"-rechtvaardigingen.
Als u documentvalidatietechnologie evalueert, begin met de architectuurvraag -- niet de leveranciersvraag. Zodra u begrijpt dat hybride de enige levensvatbare benadering is voor productiegebruik, wordt de leveranciersvergelijking eenvoudig.
Verken ons documentvalidatieplatform of bekijk onze prijzen om te zien hoe hybride architectuur zich vertaalt in concrete prestaties op uw documenttypen.
Verder lezen: zie hoe hybride architectuur in de praktijk wordt toegepast in ons artikel over kruisdocumentvalidatie voorbij OCR, of kwantificeer de businesscase in onze analyse van de werkelijke kosten van handmatige documentvalidatie.