#inferencia

El backend de transformers en vLLM: rendimiento nativo para modelos grandes

vLLM ahora puede ejecutar modelos definidos en transformers con velocidad comparable a implementaciones nativas optimizadas. Esto reduce la necesidad de portar código y acelera la puesta en producción de LLM y VLM.

11 de julio de 2026

Inteligencia Artificial 6 min lectura

ZML lanza LLMD para acelerar inferencia en múltiples chips y reducir el bloqueo de proveedores

La startup francesa ZML ha presentado LLMD, un servidor de inferencia diseñado para ejecutar grandes modelos de lenguaje en una variedad de chips comerciales y emergentes. La propuesta: maximizar el rendimiento de inferencia, reducir costos energéticos y ofrecer alternativas frente al dominio de proveedores tradicionales.

8 de julio de 2026

Inteligencia Artificial 6 min lectura

Gemma 4 en tiempo real: Hugging Face y Cerebras aceleran la voz AI

Hugging Face y Cerebras presentaron una pila abierta de speech-to-speech que reduce la latencia usando Gemma 4 31B en hardware Cerebras. La arquitectura modular integra Parakeet y Qwen3TTS para conversaciones por voz notablemente más fluidas.

2 de julio de 2026

Herramientas y Reviews 5 min lectura

Nemotron 3 Ultra ahora disponible en Amazon SageMaker JumpStart

Amazon SageMaker JumpStart ya ofrece Nemotron 3 Ultra con despliegue de un clic. El modelo, optimizado para cargas de trabajo agentic, promete inferencia hasta 5x más rápida y hasta 30% menos costo en tareas complejas.

5 de junio de 2026

Inteligencia Artificial 6 min lectura

Nemotron-Labs Diffusion: generación de texto a la velocidad de la luz para LLMs

NVIDIA presentó Nemotron-Labs Diffusion, una familia de modelos que combina generación autoregresiva y por difusión para acelerar la inferencia y permitir revisiones iterativas. Los modelos vienen en escalas de 3B, 8B y 14B y ofrecen modos de generación intercambiables que equilibran velocidad y precisión.

23 de mayo de 2026

Industria y Negocios 6 min lectura

Por qué la apuesta de Nvidia con el chip Vera no es un detalle menor

Además de sus GPUs, Nvidia empuja una segunda línea de productos centrada en la inferencia: el chip Vera y la plataforma Vera Rubin. Jensen Huang dice que abrirán acceso a un mercado de US$200 mil millones y que Vera podría facturar US$20.000 millones este año fiscal. La gran pregunta es si la oferta podrá sostener la demanda.

21 de mayo de 2026

Machine Learning 6 min lectura

Cómo acelerar la inferencia de LLM: batching asíncrono para eliminar tiempos muertos

El batching asíncrono rompe el patrón donde CPU y GPU se turnan y desperdician ciclos. En lugar de esperar a que termine una etapa para empezar la siguiente, se preparan batches en la CPU mientras la GPU está ocupada, reduciendo tiempos muertos y aumentando throughput.

16 de mayo de 2026

Inteligencia Artificial 6 min lectura

vLLM V0 a V1: priorizar la corrección del backend antes de ajustar el objetivo RL

La migración de vLLM V0 a V1 reveló una brecha entre la inferencia y el entrenamiento que afectaba métricas clave como clip rate, KL, entropía y recompensa. Al corregir primero el comportamiento del backend —logprobs procesados, defaults de runtime, actualizaciones en vuelo y proyección final en fp32— se restauró la paridad sin tocar el objetivo RL.

7 de mayo de 2026

Herramientas y Reviews 6 min lectura

DeepInfra llega como Inference Provider en Hugging Face: qué significa para desarrolladores y empresas

Hugging Face suma a DeepInfra a su ecosistema de Inference Providers, facilitando el uso de modelos serverless con alternativas de enrutamiento y facturación. Esta integración simplifica la adopción de LLMs y modelos multimodales por parte de desarrolladores y equipos en América Latina.

2 de mayo de 2026

Inteligencia Artificial 6 min lectura

Cómo acelerar la inferencia generativa en SageMaker AI con las instancias G7e

Amazon SageMaker AI ya ofrece instancias G7e con GPUs NVIDIA RTX PRO 6000 Blackwell, que duplican la memoria por GPU respecto a la generación anterior y prometen hasta 2.3x más rendimiento de inferencia. Esto facilita correr grandes modelos en una sola máquina y reduce la latencia en despliegues multiescala.

21 de abril de 2026

Inteligencia Artificial 6 min lectura

Decodificación especulativa: cómo acelerar LLMs hasta 3x sin perder calidad

La decodificación especulativa permite a los grandes modelos de lenguaje generar texto considerablemente más rápido al delegar tokens previsibles a un modelo pequeño y verificar en bloque con el modelo objetivo. Es una técnica práctica para reducir latencia sin sacrificar calidad.

1 de abril de 2026

Inteligencia Artificial 5 min lectura

Cómo reservar GPU para endpoints de inferencia con SageMaker Training Plans

SageMaker AI Training Plans permiten reservar capacidad de GPU p-family para cargas de inferencia con ventanas de tiempo definidas. Esto ayuda a equipos que deben evaluar modelos grandes sin depender de la capacidad on‑demand.

25 de marzo de 2026

Inteligencia Artificial 6 min lectura

SPEED-Bench: un benchmark unificado para evaluar Speculative Decoding

Speculative Decoding acelera la inferencia de LLMs al usar un modelo 'borrador' que genera tokens anticipados y un modelo objetivo que verifica en paralelo. SPEED-Bench unifica la evaluación de esta técnica con dos conjuntos de datos y un marco de medición integrado con motores de inferencia de grado productivo.

20 de marzo de 2026

Inteligencia Artificial 5 min lectura

Holotron-12B: modelo multimodal optimizado para agentes de uso de computadora

Holotron-12B es un modelo multimodal diseñado para agentes que interactúan con interfaces y múltiples imágenes. Basado en la familia Nemotron de NVIDIA, ofrece un salto importante en throughput y rendimiento en benchmarks agenticos.

18 de marzo de 2026

Inteligencia Artificial 6 min lectura

Inferencia desagregada en AWS con llm-d: optimizar LLMs a escala

AWS y el proyecto open source llm-d ofrecen una arquitectura de inferencia desagregada que separa las fases de prefill y decode, incorpora enrutamiento consciente de caché y soporte para fabrics de alta velocidad como EFA. Esto mejora la utilización de GPU y la eficiencia en despliegues a gran escala.

17 de marzo de 2026