DeepSeek V4: potencia casi de frontera a una fracción del costo
DeepSeek presentó V4 con dos modelos preview —Pro y Flash— optimizados para contextos de 1 millón de tokens. Ofrecen mayor escala y eficiencia a costos por token notablemente bajos, lo que podría permitir despliegues locales y acceso más amplio en la región.
Qué anunció DeepSeek y por qué importa
El 24 de abril de 2026, el laboratorio chino DeepSeek publicó las primeras versiones preview de su serie V4: DeepSeek-V4-Pro y DeepSeek-V4-Flash. Ambos son modelos Mixture of Experts diseñados para manejar contextos de hasta 1 millón de tokens, y llegan con una apuesta clara por la eficiencia y el precio. Además se distribuyen bajo la licencia MIT, lo que facilita su adopción por empresas y desarrolladores.
Para el público profesional en América Latina esto puede significar dos cosas: acceso a capacidades avanzadas de lenguaje a costos sensiblemente menores y la posibilidad real de ejecutar versiones cuantizadas o parcialmente locales, reduciendo dependencia de la nube pública y sus costos recurrentes.
Especificaciones técnicas clave
- DeepSeek-V4-Pro: 1.6 billones (trillions) de parámetros totales, con 49.000 millones de parámetros activados por token; tamaño en disco reportado en Hugging Face: 865 GB.
- DeepSeek-V4-Flash: 284.000 millones de parámetros totales, con 13.000 millones de parámetros activados por token; tamaño en disco reportado: 160 GB.
Ambos modelos están pensados para contextos extremadamente largos (1M tokens) y usan Mixture of Experts para activar solo subconjuntos de parámetros por paso, lo que ayuda a contener los costos de cálculo y memoria.
Eficiencia: el motor detrás del bajo precio
DeepSeek destaca que, en escenarios de 1 millón de tokens, la arquitectura V4 reduce sustancialmente el cómputo y la memoria comparada con V3.2. Según sus cifras internas:
- V4-Pro: alrededor del 27% de los FLOPs por token (medidos en FLOPs equivalentes en FP8) y 10% del tamaño del KV cache respecto a V3.2.
- V4-Flash: aún más eficiente, con aproximadamente 10% de los FLOPs por token y 7% del KV cache frente a V3.2.
Esa ganancia de eficiencia se traduce directamente en precios mucho más bajos por millón de tokens (véase la siguiente sección), y en una mejor viabilidad para manejar dialogos o documentos muy largos sin explotar costos o memoria.
Precio y comparación con modelos de frontera
DeepSeek publicó tarifas muy agresivas para V4. Flash es especialmente barato: $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida. Pro se ubica también en un rango competitivo para modelos grandes: $1.74 por millón de tokens de entrada y $3.48 por millón de tokens de salida.
En la comparación que reporta DeepSeek, Flash resulta más económico que las variantes “small” de otros proveedores (incluso que GPT-5.4 Nano), y Pro aparece como la opción más barata entre los grandes modelos de frontera listados en esa tabla. Esto abre posibilidades para servicios que necesitan procesos de texto intensivos en tokens (p. ej. análisis legal, resúmenes largos, búsquedas en grandes repositorios documentales) sin pagar precios de frontera tradicionales.
Rendimiento frente a la competencia
En benchmarks de razonamiento estándar, DeepSeek-V4-Pro muestra rendimiento competitivo: mejora sobre GPT-5.2 y Gemini-3.0-Pro en ciertas condiciones de expansión de tokens de razonamiento. Sin embargo, según los propios autores, todavía queda ligeramente por detrás de GPT-5.4 y Gemini-3.1-Pro, con una brecha estimada en desarrollo de aproximadamente 3 a 6 meses respecto a los modelos tope de línea.
Esto sugiere que DeepSeek ha priorizado eficiencia y coste operativo, alcanzando resultados muy cercanos a la frontera en muchas tareas, aunque no reclamando ser la punta absoluta en todos los benchmarks.
Implicaciones prácticas para equipos en Latinoamérica
- Acceso y costo: Para startups, PYMEs y laboratorios académicos de la región, modelos como DeepSeek-V4-Flash reducen la barrera de entrada económica para integrar capacidades de LLMs en productos y servicios.
- Despliegue híbrido/local: Con tamaños de archivo de 160 GB (Flash) y 865 GB (Pro), y la posibilidad de quantización, existe la opción real de ejecutar versiones ligeras localmente en hardware potente (ej. estaciones con mucha RAM o servidores on-premise), reduciendo latencias y dependencia en la nube.
- Innovación en casos de uso largos: Aplicaciones que requieren contexto extenso (gestión documental, cumplimiento regulatorio, minería de jurisprudencia) se benefician directamente de modelos optimizados para 1M tokens.
- Regulación y soberanía de datos: La licencia MIT facilita adopción local, y la opción de ejecutar modelos fuera de la nube puede ser relevante para instituciones preocupadas por políticas de datos y cumplimiento local.
Consideraciones técnicas y operativas
- Ejecución en hardware personal: Simon Willison, probador de referencia, comenta la esperanza de correr una versión cuantizada de Flash en un MacBook Pro M5 con 128 GB de RAM; Pro podría ser factible solo si se emplea streaming de expertos activos desde disco. Esto muestra que, aunque posible, la ejecución local aún requiere hardware robusto o técnicas avanzadas de inferencia.
- Cuantización y comunidad: Se espera que equipos como Unsloth publiquen versiones cuantizadas pronto, lo que facilitará la ejecución en máquinas con menos memoria.
- Licencia MIT: simplifica integración comercial, pero igualmente se deben revisar consideraciones legales y de responsabilidad según cada caso de uso.
Conclusión: una oferta relevante para la región
DeepSeek V4 llega como una propuesta que empuja el equilibrio entre capacidad, eficiencia y precio. No reclama superar a todos los modelos de vanguardia en todas las métricas, pero su combinación de contexto masivo, Mixture of Experts y tarifas muy competitivas puede democratizar el acceso a modelos avanzados en mercados con sensibilidad al precio —como muchos en Latinoamérica— y fomentar despliegues híbridos o locales que mejoren privacidad y costos operativos.
Para equipos técnicos y tomadores de decisión en la región, la recomendación es seguir de cerca las versiones cuantizadas y los benchmarks independientes, evaluar pruebas de concepto con Flash para casos de uso de alto volumen de tokens y considerar arquitectura híbrida para equilibrar costo, rendimiento y cumplimiento.
Fuentes: anuncio y paper técnico de DeepSeek (lanzamiento V4), datos de Hugging Face sobre tamaño de modelos, comparativas de precios y notas de benchmark proporcionadas por DeepSeek.
Fuente original: Simon Willison