Flujo de procesamiento
Subida y validación del archivo
Envías el documento a través de la API o la interfaz web. CamtomDocs valida:
- Que el formato sea soportado (PDF, imágenes, Excel, XML)
- Que el archivo no exceda las 300 páginas
- Que el archivo sea legible y no esté corrupto
Esquema de extracción
En este paso defines qué datos quieres extraer:
- Con JSON Schema: Proporcionas un JSON Schema Draft 7 que define los campos a extraer. El schema soporta validación completa de tipos: string, number, integer, boolean, array y object.
- Sin JSON Schema: Si no envías un schema, el sistema puede inferir uno automáticamente a partir de una descripción del documento.
Preprocesamiento del documento
Según el tipo de archivo, el sistema aplica diferentes técnicas:
- PDFs escaneados e imágenes: OCR automático para convertir el contenido visual a texto
- PDFs nativos: Extracción directa del texto embebido
- Excel (XLSX, XLS, ODS): Lectura estructurada de celdas y columnas
- XML: Parseo directo de la estructura del documento
Procesamiento inteligente
El sistema adapta automáticamente su procesamiento según las características del documento:
- Para PDFs digitales extensos, activa un procesamiento avanzado que analiza el documento sección por sección con capacidades especializadas para tablas complejas.
- Para el resto de documentos (PDFs cortos, imágenes, Excel, XML), aplica extracción basada en el JSON Schema que proporcionaste.
Extracción de datos
El sistema procesa el documento y extrae los datos según el esquema. El resultado es un objeto JSON estructurado con los campos solicitados.
El proceso de extracción
CamtomDocs adapta automáticamente su procesamiento según las características de tu documento para obtener la máxima precisión.Extracción basada en esquema
Para la mayoría de documentos, la extracción se basa en el JSON Schema Draft 7 que proporcionas. Tú defines qué campos necesitas y la IA los busca en el documento. Por ejemplo, para extraer datos de una factura:Procesamiento avanzado para documentos extensos
Para PDFs digitales extensos, CamtomDocs activa automáticamente un procesamiento avanzado que:- Analiza el documento sección por sección para mayor precisión
- Detecta y procesa tablas complejas, incluyendo tablas que abarcan múltiples páginas
- Combina los resultados parciales en un único JSON de salida, eliminando duplicados y manteniendo el orden correcto
- Valida los datos extraídos contra tu JSON Schema para asegurar completitud
Procesamiento por tipo de archivo
Cada formato de archivo se procesa de manera diferente para obtener los mejores resultados:PDF
Los PDFs son el formato más común en documentos de comercio exterior. CamtomDocs distingue entre:
- PDFs nativos (generados digitalmente): El texto se extrae directamente, lo que produce resultados más rápidos y precisos. Los PDFs extensos activan automáticamente un procesamiento avanzado sección por sección.
- PDFs escaneados: Se aplica OCR automático para convertir la imagen a texto antes de la extracción.
Imágenes (JPEG, PNG, TIFF, BMP, GIF, WebP)
Imágenes (JPEG, PNG, TIFF, BMP, GIF, WebP)
Las imágenes se procesan con OCR automático y luego se extraen los datos según tu esquema. Se recomienda una resolución mínima de 300 DPI para documentos escaneados.
Excel (XLSX, XLS, ODS)
Excel (XLSX, XLS, ODS)
Los archivos de hoja de cálculo se procesan manteniendo la estructura tabular. Se soportan los formatos Excel moderno (.xlsx), Excel clásico (.xls) y OpenDocument (.ods).
XML
XML
Los archivos XML (comunes en CFDI y complementos de comercio exterior) se parsean directamente aprovechando su estructura. Este formato típicamente produce los resultados más precisos porque la estructura de datos es explícita.
Consumo de créditos
El consumo de créditos se calcula según la operación:
- Extracción de documentos: 0.5 créditos por página procesada. Un documento de 4 páginas cuesta 2 créditos.
- Generación de schema: 1.0 crédito fijo.
- Generación de Excel schema: 1.0 crédito fijo.
Siguiente paso
Documentos soportados
Consulta todos los tipos de documentos y formatos compatibles.
Mejores prácticas
Aprende a optimizar tus extracciones para obtener los mejores resultados.