Skip to main content
CamtomDocs procesa documentos en tres etapas: validación del archivo, aplicación de un esquema de extracción, y extracción de datos estructurados. Cuando subes un documento, el sistema primero valida que el formato y tamaño sean compatibles. Luego, puedes proporcionar un JSON Schema Draft 7 que describe exactamente los campos que necesitas, o dejar que el sistema infiera uno automáticamente a partir de una descripción. Finalmente, el sistema selecciona automáticamente el procesamiento más adecuado según las características del documento y devuelve los datos extraídos como JSON estructurado. Todo este proceso ocurre en segundos para la mayoría de los documentos.

Flujo de procesamiento

1

Subida y validación del archivo

Envías el documento a través de la API o la interfaz web. CamtomDocs valida:
  • Que el formato sea soportado (PDF, imágenes, Excel, XML)
  • Que el archivo no exceda las 300 páginas
  • Que el archivo sea legible y no esté corrupto
Si la validación falla, recibes un mensaje de error descriptivo antes de consumir créditos.
2

Esquema de extracción

En este paso defines qué datos quieres extraer:
  • Con JSON Schema: Proporcionas un JSON Schema Draft 7 que define los campos a extraer. El schema soporta validación completa de tipos: string, number, integer, boolean, array y object.
  • Sin JSON Schema: Si no envías un schema, el sistema puede inferir uno automáticamente a partir de una descripción del documento.
3

Preprocesamiento del documento

Según el tipo de archivo, el sistema aplica diferentes técnicas:
  • PDFs escaneados e imágenes: OCR automático para convertir el contenido visual a texto
  • PDFs nativos: Extracción directa del texto embebido
  • Excel (XLSX, XLS, ODS): Lectura estructurada de celdas y columnas
  • XML: Parseo directo de la estructura del documento
4

Procesamiento inteligente

El sistema adapta automáticamente su procesamiento según las características del documento:
  • Para PDFs digitales extensos, activa un procesamiento avanzado que analiza el documento sección por sección con capacidades especializadas para tablas complejas.
  • Para el resto de documentos (PDFs cortos, imágenes, Excel, XML), aplica extracción basada en el JSON Schema que proporcionaste.
Esta selección es automática y transparente.
5

Extracción de datos

El sistema procesa el documento y extrae los datos según el esquema. El resultado es un objeto JSON estructurado con los campos solicitados.
6

Entrega de resultados

Recibes el JSON con los datos extraídos, listo para integrar en tus sistemas, alimentar otros productos de Camtom o exportar.

El proceso de extracción

CamtomDocs adapta automáticamente su procesamiento según las características de tu documento para obtener la máxima precisión.

Extracción basada en esquema

Para la mayoría de documentos, la extracción se basa en el JSON Schema Draft 7 que proporcionas. Tú defines qué campos necesitas y la IA los busca en el documento. Por ejemplo, para extraer datos de una factura:
{
  "type": "object",
  "properties": {
    "numero_factura": { "type": "string" },
    "fecha": { "type": "string", "format": "date" },
    "emisor": {
      "type": "object",
      "properties": {
        "nombre": { "type": "string" },
        "rfc": { "type": "string" }
      }
    },
    "total": { "type": "number" },
    "moneda": { "type": "string" },
    "items": {
      "type": "array",
      "items": {
        "type": "object",
        "properties": {
          "descripcion": { "type": "string" },
          "cantidad": { "type": "number" },
          "precio_unitario": { "type": "number" }
        }
      }
    }
  }
}
La IA interpreta este esquema y busca en el documento los valores correspondientes a cada campo. Si la extracción de un array se trunca, el sistema reintenta automáticamente para obtener todos los datos.

Procesamiento avanzado para documentos extensos

Para PDFs digitales extensos, CamtomDocs activa automáticamente un procesamiento avanzado que:
  • Analiza el documento sección por sección para mayor precisión
  • Detecta y procesa tablas complejas, incluyendo tablas que abarcan múltiples páginas
  • Combina los resultados parciales en un único JSON de salida, eliminando duplicados y manteniendo el orden correcto
  • Valida los datos extraídos contra tu JSON Schema para asegurar completitud

Procesamiento por tipo de archivo

Cada formato de archivo se procesa de manera diferente para obtener los mejores resultados:
Los PDFs son el formato más común en documentos de comercio exterior. CamtomDocs distingue entre:
  • PDFs nativos (generados digitalmente): El texto se extrae directamente, lo que produce resultados más rápidos y precisos. Los PDFs extensos activan automáticamente un procesamiento avanzado sección por sección.
  • PDFs escaneados: Se aplica OCR automático para convertir la imagen a texto antes de la extracción.
Para mejores resultados, usa PDFs nativos siempre que sea posible.
Las imágenes se procesan con OCR automático y luego se extraen los datos según tu esquema. Se recomienda una resolución mínima de 300 DPI para documentos escaneados.
Los archivos de hoja de cálculo se procesan manteniendo la estructura tabular. Se soportan los formatos Excel moderno (.xlsx), Excel clásico (.xls) y OpenDocument (.ods).
Los archivos XML (comunes en CFDI y complementos de comercio exterior) se parsean directamente aprovechando su estructura. Este formato típicamente produce los resultados más precisos porque la estructura de datos es explícita.

Consumo de créditos

El consumo de créditos se calcula según la operación:
  • Extracción de documentos: 0.5 créditos por página procesada. Un documento de 4 páginas cuesta 2 créditos.
  • Generación de schema: 1.0 crédito fijo.
  • Generación de Excel schema: 1.0 crédito fijo.
Los créditos solo se consumen cuando la extracción se ejecuta exitosamente; si la validación falla, no se cobran créditos.

Siguiente paso

Documentos soportados

Consulta todos los tipos de documentos y formatos compatibles.

Mejores prácticas

Aprende a optimizar tus extracciones para obtener los mejores resultados.
Last modified on March 8, 2026