Inteligencia Artificial 6 min lectura
Modelos multimodales con Sentence Transformers: embebidos y rerankers para texto, imagen, audio y video
Sentence Transformers v5.4 añade soporte multimodal: texto, imágenes, audio y video comparten un mismo espacio de embeddings. En este artículo explico cómo instalar, cargar modelos, calcular similitudes cruzadas y usar rerankers multimodales con ejemplos y consideraciones prácticas para equipos en Latinoamérica.