Datos imperfectos y el último tramo de la IA

Rompiendo el mito: los datos no tienen que ser perfectos

Joe Rose, presidente de JBS Dev, plantea una idea que muchos ejecutivos y equipos de datos aún no han interiorizado: no hace falta esperar a tener un lago de datos perfecto para comenzar a trabajar con modelos generativos y agentes. “Es una idea común que sus datos deben estar perfectos antes de hacer este tipo de cargas de trabajo”, señala Rose. En la práctica, el ecosistema de herramientas para procesar datos de baja calidad es hoy mucho más potente de lo que se imagina la mayoría.

Los consultores y proveedores a menudo promueven transformaciones de datos a gran escala antes de cualquier prueba real. Eso genera paralización y gasto en proyectos que nunca arrancan. La alternativa que propone Rose es pragmática: aprovechar las capacidades actuales de los LLM y las plataformas de IA para extraer valor desde datos mixtos y progresar de forma iterativa.

Por qué las herramientas actuales permiten empezar ya

La evolución de los modelos y del software de apoyo —OCR más preciso, pipelines de extracción y agentes capaces de tareas compuestas— ha reducido la barrera de entrada. Como dice Rose, “es casi notable lo que un LLM puede entender con un prompt medio escrito”. Esto permite, por ejemplo, convertir PDFs y fotos en texto procesable y empezar a limpiar y estructurar información con resultados prácticos en poco tiempo.

En contextos latinoamericanos, donde la heterogeneidad documental y los sistemas legados son comunes, este enfoque tiene especial sentido. No es raro que registros relevantes estén repartidos entre imágenes, formularios escaneados y sistemas antiguos; la clave está en diseñar flujos que combinen reconocimiento de texto, normalización y validaciones simples para obtener conjuntos útiles desde etapas tempranas.

Un caso típico: migración de facturación en salud

Rose comparte un ejemplo del sector médico: la migración a un nuevo sistema de conciliación de facturación enfrentó registros mixtos —PDFs, imágenes y campos inconsistentes (procedimientos en el nombre del doctor, nombres de médicos en campos de paciente, etc.). Con prompts adecuados, modelos generativos y herramientas de OCR se extrajo la información limpia necesaria. Luego, se aplicaron agentes para comparar registros de cliente con contratos de seguro y validar tarifas facturadas.

Este tipo de proyecto ilustra dos puntos clave: primero, la IA permite extraer y normalizar datos en situaciones desordenadas; segundo, el proceso se construye por capas: extracción, comparación y reglas de negocio. No es una solución perfecta desde el inicio, pero sí escalable.

Automatización incremental y el rol humano

Una observación práctica de Rose es la progresión gradual de la automatización: “empezamos en 20% automatizado, luego 40%, 60, 80%” y se va subiendo con el tiempo. Eso exige incorporar un diseño que contemple el humano en el bucle para supervisión, corrección y manejo de la imprevisibilidad de las salidas.

El modelo mental tradicional de “construyo, funciona y lo olvido” no aplica con sistemas generativos. Estos requieren monitoreo continuo, métricas de calidad y procesos de retroalimentación. En sectores regulados como salud o finanzas, esto además se vincula con trazabilidad y auditoría de decisiones automatizadas.

El nuevo foco: costos y portabilidad

Más allá de la capacidad del modelo, Rose prevé que las conversaciones se moverán hacia la sostenibilidad de costos y la portabilidad. En lugar de buscar saltos radicales en capacidad de modelos, las empresas preguntarán: ¿cómo hacemos que esto sea económicamente viable sin multiplicar centros de datos?

El “último tramo” de la IA —cómo ejecutar modelos en dispositivos más simples como laptops o teléfonos— es crítico para reducir dependencia de infraestructura centralizada. Si la ejecución puede trasladarse al borde (edge) o a dispositivos de usuario, se reduce latencia, costos operativos y, en algunos casos, se mejora la privacidad de datos.

Rose recuerda que los modelos fueron entrenados con grandes corpus ya disponibles en la web y otros repositorios; no existe, según él, una enorme reserva de datos inéditos que vaya a generar por sí sola un nuevo salto de capacidades. Por eso la atención se desplazará a optimizar despliegue y costos.

SaaS vs. hacerlo internamente: un consejo controversial

En el marco del AI & Big Data Expo, Rose ofrece una recomendación que puede sonar provocadora: dejar de comprar soluciones SaaS cuando es posible implementar internamente con la nube que ya se usa. “No es tan difícil como parece”, afirma. Su argumento es que casi todas las organizaciones ya tienen presencia en la nube, y las plataformas de los grandes proveedores cuentan con herramientas necesarias para implementar cargas agenticas sin licencias adicionales.

Para organizaciones en América Latina esto implica evaluar detenidamente contratos SaaS, costos recurrentes y dependencia tecnológica. En muchos casos puede ser viable empezar con capacidades nativas de nube (pipelines, orquestación, modelos gestionados) y luego decidir si conviene mantener, ampliar o contratar soluciones externas.

Recomendaciones prácticas para líderes y equipos en LATAM

Empezar pequeño y con objetivos claros: identifiquen procesos repetitivos con datos ya accesibles y prueben un pipeline de extracción y validación.
Diseñar para la iteración: planifiquen etapas de automatización gradual y métricas que permitan medir avances del 20% al 80%.
Mantener al humano en el bucle: definan puntos de control donde la intervención humana corrija y alimente modelos.
Evaluar costos de infraestructura: comparar costos de ejecución en la nube pública vs. on-premise y explorar opciones de inferencia en el borde.
Revisar dependencia SaaS: analizar si la pila de nube existente permite implementar la solución con menos gasto recurrente.

Conclusión

El mensaje central que trae JBS Dev es claro: no esperen la perfección de los datos para comenzar con IA generativa. Con las herramientas actuales es posible extraer valor desde datos mixtos y escalar de forma incremental, siempre con gobernanza humana y atención a la sostenibilidad de costos. Para las empresas latinoamericanas, que suelen lidiar con sistemas heterogéneos y restricciones presupuestarias, adoptar un enfoque pragmático y por etapas puede acelerar beneficios reales mientras se prepara la organización para el desafío del “último tramo”: hacer la IA más portátil y menos dependiente de centros de datos masivos.

JBS Dev se posiciona como socio en ese recorrido: ayudar a iniciar, escalar y optimizar, con la mira puesta en que la adopción sea tanto práctica como económicamente sostenible.