Calidad del documento
La calidad del archivo de entrada es el factor que más impacta en la precisión de la extracción.PDFs nativos vs escaneados
- PDF nativo (ideal)
- PDF escaneado
Un PDF nativo es aquel generado directamente desde un sistema digital (ERP, sistema de facturación, etc.). El texto está embebido en el archivo y es seleccionable.Ventajas:
- Extracción directa del texto, sin necesidad de OCR
- Máxima precisión en la lectura de datos
- Procesamiento más rápido
- Para documentos extensos, se activa automáticamente un procesamiento avanzado especializado
Calidad de imágenes
Si subes documentos como imágenes, sigue estas recomendaciones:Resolución
Mínimo 300 DPI. Las resoluciones menores pueden causar errores en caracteres pequeños, números y códigos.
Iluminación
Iluminación uniforme sin sombras ni reflejos. Los brillos sobre el papel dificultan la lectura del OCR.
Alineación
El documento debe estar derecho. Aunque CamtomDocs corrige inclinaciones leves, una rotación excesiva reduce la precisión.
Encuadre
Captura el documento completo. Los bordes cortados pueden omitir campos importantes como totales o sellos.
Diseño de esquemas JSON
El diseño de tu JSON Schema Draft 7 impacta directamente en la calidad de la extracción. El sistema valida tu esquema con JSON Schema y soporta todos los tipos: string, number, integer, boolean, array y object.Nombres de campo descriptivos
Usa nombres que describan claramente qué dato esperas. La IA utiliza los nombres de campo como contexto para buscar la información correcta.Usa descripciones en el esquema
Agrega el campodescription para dar contexto adicional a la IA:
Estructura adecuada para datos repetitivos
Usa arrays para datos que se repiten, como líneas de una factura o partidas de un pedimento:Procesamiento según tipo de documento
La selección del procesamiento es automática. Tú no necesitas elegir: el sistema decide según las características del documento.- Imágenes, Excel, XML y PDFs cortos: Se extraen los datos según tu JSON Schema, procesando el contenido de forma eficiente.
- PDFs digitales extensos: Se activa automáticamente un procesamiento avanzado que analiza el documento sección por sección, con capacidades especializadas para tablas complejas y estructuras que abarcan múltiples páginas.
Optimización de créditos
Cada página procesada consume 0.5 créditos. Estas estrategias te ayudan a aprovechar mejor tu saldo:Envía solo las páginas relevantes
Si un documento de 20 páginas tiene la información que necesitas en las primeras 3 páginas, recorta el PDF antes de enviarlo. Pasarás de 10 créditos a 1.5 créditos.
Usa el formato correcto
Enviar un PDF nativo en lugar de una imagen escaneada no solo mejora la precisión sino que puede reducir el número de reintentos necesarios.
Valida antes de procesar
Verifica que el archivo sea legible antes de enviarlo. Un archivo corrupto o una imagen borrosa consumirá créditos sin producir resultados útiles.
Errores comunes a evitar
Subir documentos protegidos con contraseña
Subir documentos protegidos con contraseña
CamtomDocs no puede procesar PDFs protegidos con contraseña. Remueve la protección antes de subir el archivo.
Enviar imágenes de muy baja resolución
Enviar imágenes de muy baja resolución
Imágenes con menos de 150 DPI producen errores frecuentes, especialmente en números, fechas y códigos. Usa 300 DPI como mínimo.
Esquemas demasiado genéricos
Esquemas demasiado genéricos
Un esquema con campos como
"dato1", "dato2" no le da suficiente contexto a la IA. Usa nombres descriptivos en español o inglés que reflejen el dato real.No validar el tipo de archivo
No validar el tipo de archivo
Asegúrate de que la extensión del archivo coincida con su contenido real. Un archivo
.pdf que en realidad es un .jpg renombrado puede causar errores de procesamiento.Documentos con múltiples páginas en una sola imagen
Documentos con múltiples páginas en una sola imagen
Si escaneas dos páginas en una sola imagen, la IA puede tener dificultades para separar la información. Escanea cada página por separado.
No enviar JSON Schema
No enviar JSON Schema
Sin un esquema, el sistema intenta inferir los campos a extraer, lo cual es menos preciso que cuando tú defines exactamente qué datos necesitas. Siempre que sea posible, proporciona un JSON Schema Draft 7 explícito.
Siguiente paso
¿Cómo funciona?
Revisa el flujo técnico completo de CamtomDocs.
Documentos soportados
Consulta la lista completa de documentos y formatos.