Gemma 4: modelos multimodales listos para on-device

Introducción

Google DeepMind presentó la familia Gemma 4 y la comunidad la ha puesto disponible en Hugging Face con licencia Apache 2. Son modelos multimodales —texto, imagen y en algunos casos audio— diseñados para ser tanto de alto rendimiento como prácticos para despliegues en dispositivos locales. La liberación incluye soporte amplio para agentes, motores de inferencia y librerías de fine-tuning, lo que facilita integrarlos en flujos de trabajo existentes.

Novedades clave de Gemma 4

Gemma 4 hereda avances de versiones previas y los combina para ofrecer: modelos verdaderamente abiertos, capacidades multimodales competitivas, y tamaños que permiten uso en servidores y en dispositivos con recursos limitados. Las variantes incluyen desde modelos optimizados para ejecución local hasta configuraciones densas y de expertos mixtos (MoE). Todos los checkpoints principales están disponibles tanto en versión base como afinada por instrucciones.

Modelos y ventanas de contexto disponibles:

Gemma 4 E2B: ~2.3B efectivos (5.1B con embeddings), ventana 128k, checkpoints base e IT.
Gemma 4 E4B: ~4.5B efectivos (8B con embeddings), ventana 128k, checkpoints base e IT.
Gemma 4 31B: modelo denso de 31B, ventana 256k, base e IT.
Gemma 4 26B: MoE con 26B totales y 4B activados, ventana 256k, base e IT.

Además, las variantes pequeñas (E2B y E4B) incluyen soporte para audio; todos los modelos aceptan imagen/video y texto.

Arquitectura y decisiones de diseño

Gemma 4 combina componentes probados y evita funciones complejas con evidencia inconcluyente. El objetivo fue maximizar compatibilidad entre librerías y dispositivos, soportar contextos largos y facilitar la cuantización. Algunas elecciones arquitectónicas destacadas:

Capas alternadas con atención local (sliding-window) y atención global (full-context). Modelos pequeños usan ventanas locales de 512 tokens; los grandes usan 1024 tokens.
RoPE dual: RoPE estándar en capas de ventana y RoPE proporcional en capas globales para habilitar contextos más largos.
Per-Layer Embeddings (PLE): una segunda tabla de embeddings que agrega una señal residual leve en cada capa del decodificador.
Shared KV Cache: las últimas capas reutilizan estados K/V de capas anteriores para ahorrar cómputo y memoria durante la inferencia.
Encoder visual: posiciones 2D aprendidas y RoPE multidimensional, preservando relaciones de aspecto originales y ofreciendo presupuestos de tokens configurables (70, 140, 280, 560, 1120).
Encoder de audio: conformer estilo USM con la misma base usada en Gemma-3n.

Estas decisiones permiten que la mezcla de características y la receta de entrenamiento logren resultados de vanguardia: por ejemplo, el modelo denso de 31B alcanza un puntaje estimado LMArena (solo texto) de 1452, mientras que el MoE de 26B llega a 1441 con solo 4B de parámetros activados.

Per-Layer Embeddings (PLE) explicado

PLE es una de las innovaciones más notables en las variantes más pequeñas. En lugar de depender de una única representación de embeddings inicial para todas las capas, PLE crea un vector pequeño por token y por capa. Este vector combina una parte basada en la identidad del token y otra parte dependiente del contexto —obtenida por proyecciones aprendidas de las embeddings principales— y se aplica como una señal residual ligera tras la atención y feed-forward de cada capa.

El beneficio es que cada capa recibe información token-específica justo cuando la necesita, evitando sobrecargar la embedding inicial y permitiendo especialización por capa con un costo de parámetros moderado. Para entradas multimodales, PLE se calcula antes de que los “soft tokens” multimodales sustituyan los placeholders; las posiciones multimodales usan el token pad para recibir señales neutras cuando corresponde.

Shared KV Cache: eficiencia en inferencia

La cache compartida de claves y valores evita recalcular proyecciones K/V en las últimas capas: esas capas reutilizan los tensores K y V de la última capa no compartida del mismo tipo de atención. Esto reduce memoria y cómputo durante inferencias de contexto largo y en dispositivos con recursos limitados, manteniendo un impacto mínimo en la calidad de salida.

Capacidades multimodales

En pruebas informales los resultados multimodales se aproximaron al rendimiento de generación de texto. El encoder visual mantiene el aspecto original de las imágenes y permite ajustar la cantidad de tokens usados para balancear rapidez, memoria y calidad. Las variantes pequeñas que incluyen audio hacen de Gemma 4 una opción potente para escenarios con voz y visión.

Ecosistema y despliegue: “deploy anywhere”

La comunidad y Google colaboraron para que Gemma 4 funcione en una amplísima variedad de stacks: transformers, llama.cpp, MLX, WebGPU, Rust y más. También hay integraciones con herramientas de fine-tuning y demos (por ejemplo, TRL y opciones en nube como Vertex AI, además de estudios y plataformas que facilitan ajuste fino). Ese soporte amplio facilita experimentar y llevar modelos a producción en diferentes infraestructuras, desde servidores en nube hasta dispositivos móviles o edge.

Relevancia para América Latina

Para la región, Gemma 4 tiene implicaciones prácticas relevantes:

On-device y eficiencia: mercados con conectividad limitada se benefician de modelos que pueden ejecutarse localmente en teléfonos o dispositivos edge, mejorando latencia y privacidad.
Casos de uso multimodal: atención al cliente con voz y texto, clasificación de imágenes para agricultura de precisión, inspecciones visuales en manufactura y soporte para contenidos multimedia en e-learning.
Open source y licencia Apache 2: permite a startups y equipos locales experimentar, adaptar e integrar sin barreras legales fuertes.

Empresas y equipos técnicos en LATAM que buscan reducción de costos de inferencia, protección de datos o latencias mejores pueden encontrar en Gemma 4 una base atractiva para prototipos y productos.

Conclusión y próximos pasos

Gemma 4 llega como una familia robusta de modelos multimodales abiertos, diseñada para ser práctica y eficiente en múltiples entornos. Su combinación de arquitectura (PLE, shared KV cache, atención mixta) y la disponibilidad en un ecosistema amplio facilitan probar desde aplicaciones on-device hasta sistemas de agentes complejos. Si están evaluando modelos para producción, conviene explorar los checkpoints disponibles en Hugging Face, experimentar con las variantes pequeñas para casos on-device y considerar las opciones de fine-tuning y despliegue integradas con las herramientas que ya usan.

Si trabajan en LATAM, piensen en prototipos que aprovechen la multimodalidad para resolver problemas locales de interacción, privacidad y conectividad. La comunidad y las integraciones abiertas hacen que este sea un buen momento para experimentar con Gemma 4.