Falcon Perception: Transformer early-fusion para visión y lenguaje

Resumen

Falcon Perception es un modelo Transformer de 0.6B parámetros diseñado para grounding y segmentación de vocabulario abierto a partir de instrucciones en lenguaje natural. En lugar de la típica tubería modular —backbone visual, fusión y decodificador separados—, este diseño combina desde la primera capa parches de imagen y tokens de texto en una sola secuencia, usa una máscara de atención híbrida y genera instancias variables con una interfaz de tokens compacta y cabezas de salida ligeras.

En benchmarks relevantes, Falcon Perception alcanza 68.0 Macro-F1 en SA-Co frente a 62.3 de SAM 3; la principal diferencia restante es la calibración de presencia (MCC 0.64 vs 0.82). Además, el equipo presentó PBench, un benchmark diagnóstico que descompone fallas por capacidades como OCR, relaciones espaciales y escenas concurridas, y lanzó Falcon OCR (0.3B) con puntuaciones de 80.3 en olmOCR y 88.6 en OmniDocBench, además del mayor throughput entre modelos OCR open source.

¿Por qué evitar arquitecturas en pipeline?

Muchos sistemas de percepción con vocabulario abierto se construyen como pipelines modulares: un backbone visual (a menudo congelado) extrae características, una etapa de fusión o decodificación las combina con lenguaje, y componentes adicionales se encargan del matching y post-procesos. Ese enfoque funciona, pero tiene costos: escalabilidad limitada, dificultad para atribuir mejoras a componentes concretos y acumulación de complejidad cuando se parchea cada falla.

Falcon Perception plantea una pregunta simple: ¿puede un único backbone Transformer de early-fusion manejar simultáneamente percepción y modelado de lenguaje si se elige el patrón de atención, la interfaz de salida y la señal de entrenamiento adecuados? Según los experimentos reportados, la respuesta es mayoritariamente afirmativa.

Arquitectura: early-fusion con atención híbrida

El modelo procesa una secuencia unificada formada por parches de imagen, tokens de texto y tokens de tarea. Para conciliar la naturaleza bidimensional y contextual de las imágenes con la naturaleza autoregresiva de la predicción, emplean una máscara de atención híbrida:

Los tokens de imagen se atienen bidireccionalmente entre sí, construyendo un contexto visual global como lo haría un encoder visual.
Los tokens de texto y de tarea siguen atención causal respecto a todo lo anterior: pueden ver el prefijo visual completo y el texto ya generado, pero no el futuro.

Esta simple regla permite que el mismo backbone actúe como encoder visual y, al mismo tiempo, soporte generación autoregresiva sobre tokens de salida.

Interfaz densa y Chain-of-Perception

La percepción densa no es un problema de tamaño fijo: una imagen puede no tener instancias o contener cientos. La generación autoregresiva permite una interfaz de longitud variable, pero generar máscaras o polígonos token a token resulta caro.

La solución es Chain-of-Perception, una interfaz estructurada y corta que descompone cada instancia en tres pasos: <coord> → <size> → <seg>.

<coord>: primero se predice el centro del objeto para desambiguar a qué instancia se refiere el modelo.
<size>: a continuación se estima la extensión espacial, definiendo su escala aproximada.
<seg>: finalmente se produce un embedding que, al hacer dot product con características upsampleadas de la imagen, genera una máscara binaria a resolución completa.

Ordenar la predicción de esta manera reduce la ambigüedad antes de la etapa de máscara, transformando la predicción del segmento en un refinamiento condicionado por la geometría ya resuelta.

Cabezas especializadas y eficiencia

El backbone es compartido, pero el decodificado usa cabezas ligeras específicas:

Cabezas de Coordenadas y Tamaño: usan codificación por Fourier (proyección gaussiana aleatoria seguida de funciones sinusoidales) para mapear coordenadas continuas a un espacio de alta dimensión. Esto ayuda a superar sesgos espectrales y mejorar la precisión sobre discretizaciones por bins.
Cabeza de Segmentación: el token <seg> produce un estado que, mediante dot product con características de imagen upsampleadas, genera máscaras de alta resolución. Al partir de una representación geométrica ya establecida, se evita la maquinaria pesada de queries de máscara y matching tipo Hungarian.

Estas decisiones mantienen la sobrecarga computacional baja y simplifican el entrenamiento.

PBench: entender qué falta

Muchos benchmarks están saturados y no indican por qué falla un modelo. Para diagnóstico presentaron PBench, que clasifica ejemplos según la capacidad dominante necesaria:

L0: Objetos simples —p. ej. “car”.
L1: Atributos y subtipos —p. ej. “auto rojo”, “valla rota”.
L2: Identificación guiada por OCR —p. ej. “botella Diet Coke”, “zapatos Nike”.
L3: Comprensión espacial —p. ej. “auto a la izquierda”, “tercera ventana desde la izquierda”.
L4: Relaciones e interacciones —p. ej. “persona sosteniendo paraguas”, “edificio más alto”.

PBench permite discernir si el fallo viene por lectura de texto, por razonamiento espacial, por manejo de escenas concurridas o por ambigüedad semántica.

Falcon OCR: OCR ligero y rápido

Además del modelo de percepción, el equipo liberó Falcon OCR (0.3B), optimizado para reconocimiento de texto en documentos. Obtiene 80.3 en olmOCR y 88.6 en OmniDocBench, y se destaca por tener el mayor throughput entre los modelos OCR open source reportados. Esto lo hace atractivo para despliegues donde la latencia y el costo computacional son críticos.

Resultados clave y su interpretación

Los resultados muestran que un backbone temprano puede competir y superar alternativas modulares en tareas de grounding y segmentación open-vocabulary. La mejora en Macro-F1 en SA-Co frente a SAM 3 es notable, aunque persiste una brecha en calibración de presencia (MCC), lo que indica que el modelo todavía tiene dificultades para decidir cuándo un objeto está presente o ausente con la misma fiabilidad.

¿Qué implica esto para América Latina?

Para la región, estas ideas tienen aplicaciones prácticas relevantes:

Gobierno y trámites: modelos OCR eficientes como Falcon OCR facilitan la digitalización de documentos, expedientes y formularios en español y lenguas locales, reduciendo costos de procesamiento.
Salud y educación: segmentación y grounding pueden automatizar extracción de información en imágenes médicas, formularios escolarizados y material impreso.
Agricultura y minería: detección abierta puede identificar objetos o condiciones específicas en imágenes satelitales y aéreas con prompts en lenguaje natural.
Retail y logística: reconocimiento de productos, precios y etiquetas en bodegas y tiendas puede beneficiarse de una OCR de alto throughput y de detection open-vocabulary.

El enfoque early-fusion también favorece despliegues en entornos con recursos limitados, porque reduce la complejidad de integrar múltiples modelos y facilita el mantenimiento.

Limitaciones y próximos pasos

Aunque la arquitectura reduce complejidad y consigue buenos resultados, quedan retos: calibración de presencia, manejo de escenas extremadamente densas y la generalización a idiomas o dominios con pocos datos de entrenamiento. PBench ayudará a priorizar mejoras por capacidad.

Además, la adopción en producción requiere pruebas de robustez frente a variaciones de iluminación, sesgos en datos locales y garantías de privacidad cuando se procesa información sensible.

Conclusión

Falcon Perception demuestra que un Transformer de early-fusion bien diseñado puede unificar percepción visual y lenguaje en un único backbone eficiente, simplificando las pipelines tradicionales y logrando resultados competitivos en grounding y segmentación. Complementado con herramientas diagnósticas como PBench y un OCR veloz, representa un paso práctico hacia sistemas multimodales más sencillos de desplegar, con aplicaciones claras para la región latinoamericana. El trabajo muestra tanto el potencial como las áreas donde aún es necesario invertir: calibración, robustez y adaptación a contextos locales.