Mejores practicas extraccion de documentos

La precisión de CamtomDocs depende directamente de la calidad del documento que subes y de cómo defines tu esquema de extracción. Los tres factores más importantes son: usar PDFs nativos (no escaneados) siempre que sea posible, mantener una resolución mínima de 300 DPI en documentos escaneados, y diseñar esquemas JSON específicos con nombres de campo descriptivos. Siguiendo estas prácticas, la mayoría de los documentos de comercio exterior se procesan con una tasa de extracción superior al 95% en los campos solicitados. A continuación encontrarás recomendaciones detalladas para cada aspecto del proceso.

Calidad del documento

La calidad del archivo de entrada es el factor que más impacta en la precisión de la extracción.

PDFs nativos vs escaneados

PDF nativo (ideal)
PDF escaneado

Un PDF nativo es aquel generado directamente desde un sistema digital (ERP, sistema de facturación, etc.). El texto está embebido en el archivo y es seleccionable.Ventajas:

Extracción directa del texto, sin necesidad de OCR
Máxima precisión en la lectura de datos
Procesamiento más rápido
Para documentos extensos, se activa automáticamente un procesamiento avanzado especializado

Cómo identificarlo: Abre el PDF e intenta seleccionar y copiar texto. Si puedes, es un PDF nativo.

Calidad de imágenes

Si subes documentos como imágenes, sigue estas recomendaciones:

Resolución

Mínimo 300 DPI. Las resoluciones menores pueden causar errores en caracteres pequeños, números y códigos.

Iluminación

Iluminación uniforme sin sombras ni reflejos. Los brillos sobre el papel dificultan la lectura del OCR.

Alineación

El documento debe estar derecho. Aunque CamtomDocs corrige inclinaciones leves, una rotación excesiva reduce la precisión.

Encuadre

Captura el documento completo. Los bordes cortados pueden omitir campos importantes como totales o sellos.

Evita fotografiar documentos con el celular en condiciones de poca luz. Las fotografías con flash tienden a generar reflejos que ocultan texto. Si necesitas digitalizar documentos frecuentemente, considera usar un escáner dedicado.

Diseño de esquemas JSON

El diseño de tu JSON Schema Draft 7 impacta directamente en la calidad de la extracción. El sistema valida tu esquema con JSON Schema y soporta todos los tipos: string, number, integer, boolean, array y object.

Nombres de campo descriptivos

Usa nombres que describan claramente qué dato esperas. La IA utiliza los nombres de campo como contexto para buscar la información correcta.

// Bien - nombres descriptivos
{
  "properties": {
    "numero_de_factura": { "type": "string" },
    "fecha_de_emision": { "type": "string", "format": "date" },
    "razon_social_emisor": { "type": "string" },
    "rfc_emisor": { "type": "string" },
    "importe_total": { "type": "number" }
  }
}

// Evitar - nombres ambiguos
{
  "properties": {
    "num": { "type": "string" },
    "date": { "type": "string" },
    "name": { "type": "string" },
    "id": { "type": "string" },
    "amount": { "type": "number" }
  }
}

Usa descripciones en el esquema

Agrega el campo description para dar contexto adicional a la IA:

{
  "properties": {
    "incoterm": {
      "type": "string",
      "description": "Término de comercio internacional (ej: FOB, CIF, EXW, DDP)"
    },
    "fraccion_arancelaria": {
      "type": "string",
      "description": "Código de fracción arancelaria de 8 dígitos (sin NICO)"
    },
    "nico": {
      "type": "string",
      "description": "Número de Identificación Comercial, 2 dígitos adicionales a la fracción"
    }
  }
}

Estructura adecuada para datos repetitivos

Usa arrays para datos que se repiten, como líneas de una factura o partidas de un pedimento:

{
  "properties": {
    "partidas": {
      "type": "array",
      "description": "Líneas o partidas del documento",
      "items": {
        "type": "object",
        "properties": {
          "descripcion": { "type": "string" },
          "cantidad": { "type": "number" },
          "unidad": { "type": "string" },
          "precio_unitario": { "type": "number" },
          "importe": { "type": "number" }
        }
      }
    }
  }
}

Mantén los esquemas enfocados en los campos que realmente necesitas. Un esquema con 50 campos producirá resultados menos precisos que uno con 15 campos bien definidos. Si necesitas extraer muchos campos, considera hacer múltiples extracciones con esquemas especializados.

Procesamiento según tipo de documento

La selección del procesamiento es automática. Tú no necesitas elegir: el sistema decide según las características del documento.

Imágenes, Excel, XML y PDFs cortos: Se extraen los datos según tu JSON Schema, procesando el contenido de forma eficiente.
PDFs digitales extensos: Se activa automáticamente un procesamiento avanzado que analiza el documento sección por sección, con capacidades especializadas para tablas complejas y estructuras que abarcan múltiples páginas.

Optimización de créditos

Cada página procesada consume 0.5 créditos. Estas estrategias te ayudan a aprovechar mejor tu saldo:

Envía solo las páginas relevantes

Si un documento de 20 páginas tiene la información que necesitas en las primeras 3 páginas, recorta el PDF antes de enviarlo. Pasarás de 10 créditos a 1.5 créditos.

Usa el formato correcto

Enviar un PDF nativo en lugar de una imagen escaneada no solo mejora la precisión sino que puede reducir el número de reintentos necesarios.

Valida antes de procesar

Verifica que el archivo sea legible antes de enviarlo. Un archivo corrupto o una imagen borrosa consumirá créditos sin producir resultados útiles.

Diseña esquemas precisos

Un esquema bien diseñado con campos específicos reduce la posibilidad de errores y la necesidad de reprocesar documentos.

Errores comunes a evitar

Subir documentos protegidos con contraseña

CamtomDocs no puede procesar PDFs protegidos con contraseña. Remueve la protección antes de subir el archivo.

Enviar imágenes de muy baja resolución

Imágenes con menos de 150 DPI producen errores frecuentes, especialmente en números, fechas y códigos. Usa 300 DPI como mínimo.

Esquemas demasiado genéricos

Un esquema con campos como "dato1", "dato2" no le da suficiente contexto a la IA. Usa nombres descriptivos en español o inglés que reflejen el dato real.

No validar el tipo de archivo

Asegúrate de que la extensión del archivo coincida con su contenido real. Un archivo .pdf que en realidad es un .jpg renombrado puede causar errores de procesamiento.

Documentos con múltiples páginas en una sola imagen

Si escaneas dos páginas en una sola imagen, la IA puede tener dificultades para separar la información. Escanea cada página por separado.

No enviar JSON Schema

Sin un esquema, el sistema intenta inferir los campos a extraer, lo cual es menos preciso que cuando tú defines exactamente qué datos necesitas. Siempre que sea posible, proporciona un JSON Schema Draft 7 explícito.

Bienvenida

Primeros Pasos

CamtomDocs

TariffPro

Quoter

Digiter

Lifeline

Operaciones

Glosa

Recursos

Mejores practicas extraccion de documentos

Calidad del documento

PDFs nativos vs escaneados

Calidad de imágenes

Resolución

Iluminación

Alineación

Encuadre

Diseño de esquemas JSON

Nombres de campo descriptivos

Usa descripciones en el esquema

Estructura adecuada para datos repetitivos

Procesamiento según tipo de documento

Optimización de créditos

Errores comunes a evitar

Siguiente paso

¿Cómo funciona?

Documentos soportados

​Calidad del documento

​PDFs nativos vs escaneados

​Calidad de imágenes

Resolución

Iluminación

Alineación

Encuadre

​Diseño de esquemas JSON

​Nombres de campo descriptivos

​Usa descripciones en el esquema

​Estructura adecuada para datos repetitivos

​Procesamiento según tipo de documento

​Optimización de créditos

​Errores comunes a evitar

​Siguiente paso

¿Cómo funciona?

Documentos soportados

Calidad del documento

PDFs nativos vs escaneados

Calidad de imágenes

Diseño de esquemas JSON

Nombres de campo descriptivos

Usa descripciones en el esquema

Estructura adecuada para datos repetitivos

Procesamiento según tipo de documento

Optimización de créditos

Errores comunes a evitar

Siguiente paso