Construir vs comprar: ¿validación documental interna?
Comparación honesta entre construir la validación documental internamente o usar una plataforma. Costes ocultos, carga de mantenimiento y un marco de decisión.

Resumir este artículo con
La mayoría de los proyectos internos de validación documental no alcanzan sus objetivos, superan el presupuesto y son reemplazados por una plataforma SaaS 18 meses después. La decisión de construir o comprar merece un análisis riguroso y sin sesgos. Este artículo aporta el marco. Los números son reales. La conclusión es suya.
La Ley Orgánica 3/2018 de Protección de Datos Personales (LOPDGDD), Art. 25, impone la obligación de privacidad desde el diseño a cualquier sistema que procese datos de identidad -- lo que añade una capa de requisitos legales que los equipos de desarrollo interno deben cumplir de forma auditable (BOE, LOPDGDD).
Los 5 componentes que debe construir
Un sistema interno de validación documental requiere construir, probar, desplegar y mantener cinco componentes distintos -- ninguno es opcional y cada uno genera deuda técnica acumulada.
El SEPBLAC exige en sus directrices de 2024 que los sistemas de verificación documental de entidades obligadas mantengan pistas de auditoría inmutables y con sello temporal, disponibles bajo demanda durante inspecciones regulatorias (SEPBLAC, Publicaciones y guías).
1. OCR y extracción de datos
La capa de extracción convierte escaneos, fotos y PDFs en datos estructurados. El reto real no es el OCR de documentos limpios: es el OCR de un fax reenviado como adjunto de correo, una foto de un DNI tomada con poca luz o una nómina con diseño no estándar. Las tasas de precisión publicadas del 98-99% se aplican a texto impreso de alta calidad; con entradas reales del entorno productivo, la precisión cae al 85-92%.
2. Clasificación de documentos
Antes de validar un documento, debe identificarlo. Un justificante de domicilio puede ser un recibo de suministro, un extracto bancario, un certificado de empadronamiento o una declaración del IRPF. Cada uno tiene reglas de validez, campos a extraer y lógica de verificación diferentes.
3. Motor de reglas de negocio
Aquí es donde la complejidad explota. Un sistema en producción gestiona típicamente de 200 a 500 reglas activas. Cada regla debe probarse, versionarse y ser auditable. Cada cambio regulatorio afecta a múltiples reglas. Cada nueva entidad financiera añade un nuevo conjunto de reglas.
4. Validación cruzada de documentos
La validación de un solo documento es necesaria pero insuficiente. El valor real reside en cruzar información entre documentos: ¿la renta declarada en la nómina es consistente con la declaración fiscal? ¿El domicilio en el justificante coincide con el del DNI? ¿El CIF en la Nota Simple coincide con el de los datos bancarios?
5. Pista de auditoría y cumplimiento
En industrias reguladas --finanzas, seguros, inmobiliaria, leasing-- cada decisión de validación debe ser rastreable. Este registro debe ser inmutable, con sello temporal y disponible bajo demanda durante auditorías regulatorias.
Los costes ocultos de construir
Los costes visibles de un proyecto de construcción interno -- salarios de desarrolladores e infraestructura cloud -- representan aproximadamente el 40% del coste total. Los tres factores siguientes componen el resto.
Datos de entrenamiento
Un clasificador de documentos eficaz requiere de 2.000 a 10.000 ejemplos anotados por tipo de documento. Para 15 tipos documentales, eso representa de 30.000 a 150.000 anotaciones. Con un coste de anotación de 0,20 a 0,50 € por documento, el presupuesto de datos oscila entre 6.000 y 75.000 €.
Gestión de casos extremos
El 20% de documentos "difíciles" --mala calidad, formatos no estándar, idiomas extranjeros, campos manuscritos-- consume el 80% del esfuerzo de desarrollo.
Actualizaciones regulatorias
Las reglas KYC, la Directiva (UE) 2018/843 (AMLD5), los requisitos del RGPD/LOPDGDD y las especificaciones de entidades financieras evolucionan trimestralmente. Un equipo de dos desarrolladores dedica típicamente entre el 15% y el 20% de su capacidad al mantenimiento regulatorio continuo. La transposición de AMLD5 en España mediante la Ley 10/2010 (modificada por el Real Decreto-ley 7/2021) introduce actualizaciones específicas en la identificación de beneficiarios reales que cualquier sistema de validación interno debe absorber.
La Directiva (UE) 2018/843 (AMLD5), Art. 30, obliga a todos los Estados miembros a mantener registros centrales de titulares reales accesibles para entidades obligadas, creando un nuevo requisito de integración para los sistemas de validación documental en producción desde enero 2020 (EUR-Lex, Directiva 2018/843).
Comparación de coste total: construir vs comprar en 3 años
Para una organización que procesa 300 expedientes al mes, la diferencia acumulada a 3 años entre construir y comprar supera los 500.000 €:
| Partida de coste | Construir - Año 1 | Construir - Año 2 | Construir - Año 3 | Comprar - Año 1 | Comprar - Año 2 | Comprar - Año 3 |
|---|---|---|---|---|---|---|
| Desarrollo inicial (6-12 meses) | 195.000 € | -- | -- | -- | -- | -- |
| Integración API / sistema | 15.000 € | -- | -- | 5.000 € | -- | -- |
| Infraestructura cloud + seguridad | 18.000 € | 18.000 € | 18.000 € | incluido | incluido | incluido |
| Datos de entrenamiento / anotación | 25.000 € | 8.000 € | 8.000 € | incluido | incluido | incluido |
| Mantenimiento correctivo y evolutivo | -- | 65.000 € | 65.000 € | -- | -- | -- |
| Actualizaciones regulatorias | -- | 22.000 € | 22.000 € | incluido | incluido | incluido |
| Suscripción a la plataforma | -- | -- | -- | 4.788 € | 4.788 € | 4.788 € |
| Total anual | 268.000 € | 126.000 € | 126.000 € | 10.788 € | 4.788 € | 4.788 € |
| Coste acumulado | 268.000 € | 394.000 € | 520.000 € | 10.788 € | 15.576 € | 20.364 € |
La ratio acumulada a 3 años es de 25:1. El camino de construir supera el medio millón de euros, sin contar el coste de oportunidad de los desarrolladores desviados de su producto principal.
Tiempo de salida al mercado
Las diferencias de calendario entre construcción interna y plataforma especializada son estructurales, no coyunturales:
| Hito | Construcción interna | Plataforma especializada |
|---|---|---|
| Prueba de concepto funcional | 2-3 meses | 1-2 días |
| Primer despliegue en producción | 6-12 meses | 2-4 semanas |
| Cobertura del 80% de casos | 12-18 meses | Día 1 (tipos documentales estándar) |
| Cobertura del 95% de casos | 18-24 meses | 1-3 meses (personalización) |
Cuándo construir es la decisión correcta
Construir internamente es justificable en cinco escenarios específicos, ninguno de los cuales aplica a la mayoría de las organizaciones:
- Tipos documentales propietarios: sus documentos no se parecen a nada estándar.
- Soberanía absoluta de datos: su entorno regulatorio prohíbe el procesamiento por terceros, incluso brevemente, incluso cifrado.
- Ventaja competitiva principal: la validación documental ES su producto, no un proceso de soporte.
- Equipo de ingeniería disponible y cualificado: al menos 3 ingenieros ML/NLP experimentados y un presupuesto dedicado multianual.
- Volumen muy alto con economías de escala: más de 50.000 documentos al mes.
Marco de decisión
Siete preguntas determinan si la construcción interna es financieramente justificable para su organización:
| Pregunta | Inclina a construir | Inclina a comprar |
|---|---|---|
| ¿Sus documentos son tipos estándar de mercado? | No, formatos propietarios | Sí, mayoritariamente estándar |
| ¿La validación documental es su producto principal? | Sí, es lo que vende | No, es un proceso de soporte |
| ¿Tiene 3+ ingenieros ML disponibles 12+ meses? | Sí | No |
| ¿La regulación prohíbe todo procesamiento por terceros? | Sí (caso excepcional) | No, el procesamiento por terceros es aceptable |
| ¿Su volumen excede 50.000 documentos/mes? | Sí | No |
| ¿Necesita estar en producción en menos de 3 meses? | No, el calendario lo permite | Sí, existe presión temporal |
| ¿Su presupuesto cubre 250.000+ € en 3 años para este proyecto? | Sí, presupuesto asegurado | No, presupuesto limitado |
La opción híbrida: comprar la plataforma, extender con reglas propias
Existe un tercer escenario: comprar la plataforma base y extenderla con lógica de negocio propia.
- Use la plataforma para OCR, clasificación, validación estándar y pista de auditoría.
- Añada reglas de negocio personalizadas vía la API y el motor de reglas configurable.
- Integre en sus sistemas existentes vía API REST o webhooks.
- Mantenga el control sobre la lógica de decisión crítica delegando la infraestructura documental.
CheckFile está construido para este escenario. Revise nuestros precios para estimar el coste a su volumen, o solicite una demostración para ver cómo la plataforma gestiona sus tipos documentales en condiciones reales.
Lectura relacionada: si las cifras de TCO justifican la automatización, la siguiente pregunta es el coste total de la validación manual: nuestro análisis del coste real de la validación manual ofrece una metodología TCO completa. Para una evaluación estructurada de opciones de proveedor, consulte nuestra guía de selección de soluciones de validación con IA.
Preguntas frecuentes
¿Cuánto tiempo requiere realmente construir un sistema de validación documental desde cero? Los benchmarks del sector sitúan el primer despliegue en producción entre 6 y 12 meses, con cobertura del 80% de casos de uso entre 12 y 18 meses. La cobertura del 95% -- necesaria para uso en producción real -- se alcanza entre 18 y 24 meses.
¿Por qué el coste de los datos de entrenamiento suele subestimarse? Los equipos suelen presupuestar el coste de anotación inicial pero no el de reannotación al añadir nuevos tipos documentales, ni el de corrección de errores de clasificación detectados en producción. Para 15 tipos documentales, el coste real de datos supera frecuentemente los 40.000 € en el primer año.
¿La opción híbrida (comprar plataforma + reglas propias) requiere acceso al código fuente? No. Las plataformas modernas exponen motores de reglas configurables y APIs REST que permiten añadir lógica de negocio propia sin acceso al código fuente. La integración con sistemas ERP existentes se realiza vía webhooks o conectores estándar.
¿Qué impone la LOPDGDD a los sistemas de validación documental que procesan DNI o pasaportes? La Ley Orgánica 3/2018 (LOPDGDD), en desarrollo del RGPD, exige minimización de datos, limitación del plazo de conservación y registro de actividades de tratamiento (Art. 30 RGPD). Los sistemas internos deben documentar estas medidas para cualquier inspección de la Agencia Española de Protección de Datos (AEPD).
¿A partir de qué volumen mensual de expedientes tiene sentido construir internamente? Los análisis de TCO apuntan consistentemente a un umbral de 50.000 documentos al mes como punto a partir del cual las economías de escala de un sistema propio pueden competir con el coste por transacción de una plataforma SaaS. Por debajo de ese volumen, el camino de construir resulta más caro en todos los escenarios modelados.