Reducir latencia en búsqueda semántica de video con distillación de modelos en Amazon Bedrock
La distilación de modelos en Amazon Bedrock permite trasladar la inteligencia de enrutamiento de un modelo grande (Nova Premier) a uno pequeño (Nova Micro), reduciendo costos y latencia sin sacrificar precisión en búsquedas semánticas de video. Este artículo explica el flujo completo y su aplicabilidad para catálogos multimedia en América Latina.
El reto: precisión vs costo y latencia
La búsqueda semántica en video obliga a sopesar tres variables: exactitud en la intención de búsqueda, costo de inferencia y tiempo de respuesta. Los modelos grandes ofrecen mejor comprensión del contexto y de la intención del usuario, pero aumentan la latencia —en el caso estudiado, el componente de enrutamiento basado en Claude Haiku llegó a elevar la búsqueda a 2–4 segundos y representó alrededor del 75% de la latencia total—. Por otro lado, modelos más pequeños son rápidos y económicos, pero carecen de la “inteligencia” para decidir qué señales (visual, audio, transcripción, metadata) priorizar según la consulta.
Para catálogos de video en empresas latinoamericanas —donde hay diversidad de formatos, restricciones de licencia, y expectativas de usuarios finales— esta tensión se traduce en decisiones operativas difíciles: sacrificar experiencia o subir costos. La alternativa que presenta Amazon Bedrock es usar distilación de modelos para conservar la calidad de enrutamiento sin el costo ni la latencia del modelo maestro.
¿Qué es la distilación y por qué conviene aquí?
La distilación consiste en entrenar un modelo pequeño (estudiante) para imitar las respuestas de un modelo grande y más capaz (profesor). En este caso, Amazon Nova Premier actúa como profesor y Amazon Nova Micro como estudiante. La ventaja práctica para búsqueda semántica de video es que pueden transferirse decisiones complejas de enrutamiento —por ejemplo, ponderar visual vs. transcripción según la intención— a un modelo optimizado para inferencia rápida.
Según el proyecto, esta estrategia permite reducir el costo de inferencia en más del 95% y bajar la latencia en aproximadamente 50% manteniendo la calidad de enrutamiento exigida por la tarea.
Flujo de trabajo general (notebook en Jupyter)
El ejemplo de referencia está implementado en un notebook de Jupyter que cubre todo el pipeline. A alto nivel, los pasos son:
- Preparar los datos de entrenamiento: generar y subir ejemplos sintéticos a Amazon S3 en el formato de distilación de Bedrock.
- Ejecutar el trabajo de distilación: indicar el modelo profesor (Nova Premier), el estudiante (Nova Micro) y la ruta en S3; Bedrock orquesta el proceso.
- Desplegar el modelo destilado: utilizar inferencia on-demand para acceso flexible y pago por uso.
- Evaluar el modelo: comparar la calidad de enrutamiento del modelo destilado contra Nova Micro sin personalizar y contra la línea base Claude Haiku.
Todo el código, incluyendo el script para generar datos y utilidades de evaluación, está disponible en el repositorio de GitHub referenciado por la guía original.
Preparación de datos: menos etiquetado humano, más síntesis
Una de las fortalezas de la distilación en Bedrock es que no requieren un dataset completamente etiquetado por humanos. En lugar de eso, se proporcionan prompts y Bedrock invoca al modelo profesor para generar las respuestas que servirán como señal de entrenamiento. La plataforma incorpora, además, técnicas de síntesis y aumento de datos para producir hasta 15,000 pares prompt-respuesta diversos.
En el caso presentado, se generaron 10,000 ejemplos sintéticos con Nova Premier. Los ejemplos fueron distribuidos en las cuatro señales relevantes para búsqueda de video: visual, audio, transcripción y metadata. Los registros siguen el esquema bedrock-conversation-2024, donde la parte de usuario (prompt) es obligatoria y la respuesta del asistente (la etiqueta) puede ser generada automáticamente por el profesor.
Este enfoque facilita crear conjuntos de entrenamiento balanceados que cubran distintos niveles de dificultad, casos límite y variaciones de consulta sin depender exclusivamente de anotaciones manuales, lo cual es particularmente útil para equipos con recursos limitados en la región.
Entrenamiento: Bedrock se encarga de la orquestación
Una vez los datos están en S3, el trabajo de distilación se envía desde Bedrock indicando el identificador del profesor y del estudiante, la ubicación del dataset y un rol de IAM con los permisos necesarios. Bedrock se encarga de:
- Llamar al modelo profesor para generar respuestas cuando no se proveen etiquetas.
- Crear los pares prompt-respuesta y aplicar aumentos si es necesario.
- Afinar el modelo estudiante con esa señal, sin requerir que el usuario provisione infraestructura ni configure detalles complejos del pipeline.
En el ejemplo, Nova Micro es el objetivo por su eficiencia en inferencia y capacidad para alto throughput, ideal para escenarios de producción con muchas consultas concurrentes.
Despliegue y evaluación
El modelo destilado se puede desplegar en modo on-demand, lo que permite pagar según uso y escalar de forma flexible. La evaluación compara tres puntos:
- Nova Micro base (sin personalizar).
- El Nova Micro destilado.
- La línea base original con Claude Haiku para enrutamiento.
El objetivo es medir la calidad del enrutamiento (por ejemplo, las ponderaciones dadas a cada modalidad) y las métricas operativas: latencia e inferencia por costo. En el caso de referencia, la destilación logró mantener la calidad de enrutamiento mientras recortaba costos en más del 95% y latencia en alrededor de 50% respecto al enfoque que dependía del modelo más grande para cada decisión.
Relevancia para organizaciones en América Latina
Las organizaciones latinoamericanas que gestionan catálogos de video —medios, educación, marketing— suelen enfrentar limitaciones presupuestarias y necesidades de respuesta rápida para mejorar la experiencia de usuario. La distilación reduce la barrera de entrada técnica y económica para desplegar enrutadores multimodales sofisticados. Además, permite adaptar la distribución de consultas a dominios locales (por ejemplo, priorizar metadata legal o ventanas de derechos) mediante generación sintética de datos representativos del contexto regional.
Conclusión y siguientes pasos
La distilación en Amazon Bedrock ofrece un camino intermedio entre usar modelos grandes y caros para cada petición o conformarse con modelos rápidos pero simplistas. Al transferir la lógica de enrutamiento de Nova Premier a Nova Micro, es posible obtener una solución práctica para búsqueda semántica de video que reduzca costos y latencias sin perder la capacidad de manejar consultas complejas.
Para equipos que quieran experimentar, la guía incluye un notebook reproducible, el script para generación de datos y utilidades de evaluación. Puntos de atención al adaptar la solución: definir una distribución de consultas que refleje sus casos de uso reales y garantizar que los ejemplos sintéticos cubran escenarios regulatorios o de licencia propios de su región.
Fuente original: AWS ML Blog