#rendimiento

Perfilado de atención en PyTorch: qué mirar y cómo optimizar

Analizamos cómo el profiler de PyTorch revela los componentes de la atención y por qué una pequeña modificación —usar operaciones in-place— elimina copias innecesarias en GPU. Aplicable a modelos transformer y cargas de trabajo en producción.

10 de julio de 2026

Tendencias 5 min lectura

Por qué tantos futbolistas cortan sus calcetas en el Mundial 2026 (y qué dice la ciencia)

Cortar las calcetas se ha vuelto un gesto recurrente en el Mundial 2026 y en torneos previos. Aunque los jugadores dicen aliviar presión y ganar comodidad, no hay pruebas firmes de que mejore el rendimiento.

3 de julio de 2026

Inteligencia Artificial 6 min lectura

Qué tokens predice mejor un modelo híbrido y por qué importa

Un estudio directo entre Olmo 3 (transformer 7B) y Olmo Hybrid muestra que los híbridos aciertan más en palabras que transmiten significado y en casos que requieren seguimiento de contexto, mientras que los transformers conservan la ventaja en copia exacta y cierre de corchetes. Esto guía la elección de arquitectura según la tarea.

27 de junio de 2026

Industria y Negocios 5 min lectura

iOS 27 promete que iPhone antiguos funcionen más rápido y duren más

Apple asegura que iOS 27 mejorará el rendimiento de iPhone más antiguos —desde el iPhone 11— con arranque de apps hasta 30% más rápido y transferencias AirDrop hasta 80% más veloces. Estas mejoras provienen de optimizaciones del programador de la CPU y otros ajustes del sistema.

19 de junio de 2026

Machine Learning 6 min lectura

Perfilado en PyTorch: de nn.Linear a un MLP fusionado

Este artículo explica, con trazas de perfilador, por qué nn.Linear no genera kernels separados para multiplicación y suma, qué es un epílogo y cuándo torch.compile aporta beneficios. Incluye recomendaciones prácticas para experimentar con scripts de Hugging Face.

11 de junio de 2026

Herramientas y Reviews 5 min lectura

Profiling en PyTorch: guía inicial con torch.profiler

Perfilado es el primer paso para optimizar modelos. En esta guía práctica (Parte 1) revisamos cómo usar torch.profiler sobre una operación simple —matmul + bias— y cómo leer la tabla y la traza que genera.

29 de mayo de 2026

Inteligencia Artificial 6 min lectura

Nemotron-Labs Diffusion: generación de texto a la velocidad de la luz para LLMs

NVIDIA presentó Nemotron-Labs Diffusion, una familia de modelos que combina generación autoregresiva y por difusión para acelerar la inferencia y permitir revisiones iterativas. Los modelos vienen en escalas de 3B, 8B y 14B y ofrecen modos de generación intercambiables que equilibran velocidad y precisión.

23 de mayo de 2026

Inteligencia Artificial 6 min lectura

Gemini 3.5 Flash: inteligencia de frontera a alta velocidad

Google presentó Gemini 3.5 Flash, un modelo orientado a ejecución práctica que prioriza la velocidad sin sacrificar capacidades multimodales. Sus fortalezas incluyen un enorme contexto, cuatro modos de 'pensamiento' y latencias muy bajas, lo que lo hace útil para prototipado rápido y flujos agentivos en entornos empresariales.

20 de mayo de 2026

Industria y Negocios 6 min lectura

Cómo exprimir más rendimiento de los centros de datos sin comprar hardware nuevo

Investigadores del MIT desarrollaron Sandook, una solución de software que reduce la variabilidad de rendimiento en pools de SSD y mejora la eficiencia de centros de datos. En pruebas con cargas reales, la técnica aumentó el rendimiento entre 12% y 94% y elevó la utilización de capacidad en 23%.

7 de abril de 2026

Inteligencia Artificial 6 min lectura

Decodificación especulativa: cómo acelerar LLMs hasta 3x sin perder calidad

La decodificación especulativa permite a los grandes modelos de lenguaje generar texto considerablemente más rápido al delegar tokens previsibles a un modelo pequeño y verificar en bloque con el modelo objetivo. Es una técnica práctica para reducir latencia sin sacrificar calidad.

1 de abril de 2026

Inteligencia Artificial 6 min lectura

SPEED-Bench: un benchmark unificado para evaluar Speculative Decoding

Speculative Decoding acelera la inferencia de LLMs al usar un modelo 'borrador' que genera tokens anticipados y un modelo objetivo que verifica en paralelo. SPEED-Bench unifica la evaluación de esta técnica con dos conjuntos de datos y un marco de medición integrado con motores de inferencia de grado productivo.

20 de marzo de 2026

Inteligencia Artificial 5 min lectura

Holotron-12B: modelo multimodal optimizado para agentes de uso de computadora

Holotron-12B es un modelo multimodal diseñado para agentes que interactúan con interfaces y múltiples imágenes. Basado en la familia Nemotron de NVIDIA, ofrece un salto importante en throughput y rendimiento en benchmarks agenticos.

18 de marzo de 2026