Cómo exprimir más rendimiento de los centros de datos sin comprar hardware nuevo

Investigadores del MIT desarrollaron Sandook, una solución de software que reduce la variabilidad de rendimiento en pools de SSD y mejora la eficiencia de centros de datos. En pruebas con cargas reales, la técnica aumentó el rendimiento entre 12% y 94% y elevó la utilización de capacidad en 23%.

Por Redaccion TD
Cómo exprimir más rendimiento de los centros de datos sin comprar hardware nuevo

El reto: aprovechar mejor los SSD en centros de datos

En centros de datos modernos es común agrupar múltiples unidades de estado sólido (SSD) para que varias aplicaciones compartan almacenamiento. Esa estrategia, en teoría, mejora la eficiencia porque no todas las aplicaciones usan la capacidad completa de un SSD al mismo tiempo. En la práctica, sin embargo, la variabilidad entre dispositivos —por edad, desgaste y comportamiento interno— hace que parte de la capacidad quede subutilizada y que el rendimiento de la agrupación sea limitado por los dispositivos más lentos.

Esta problemática es especialmente relevante hoy, con el aumento sostenido de cargas de trabajo intensivas en datos, como el entrenamiento de modelos de inteligencia artificial y el procesamiento masivo de imágenes. Para muchas organizaciones, sobre todo en regiones donde la renovación de infraestructura es costosa, es crítico sacar más rendimiento del hardware existente antes de optar por comprar más equipos.

Tres fuentes de variabilidad que afectan a los SSD

Los investigadores del MIT identificaron tres causas principales que degradan el rendimiento de los pools de SSD:

  • Variación de hardware: los SSD pueden provenir de compras en distintos momentos y proveedores, y presentar diferencias en capacidad, desgaste y comportamiento con el tiempo.
  • Interferencia lectura/escritura: cuando un SSD tiene que borrar bloques para escribir nuevos datos, esa operación interna puede ralentizar las lecturas concurrentes.
  • Recolección de basura (garbage collection): los procesos internos que liberan espacio se activan en momentos impredecibles y reducen temporalmente el rendimiento del dispositivo.

Estas fuentes actúan en escalas temporales distintas: la degradación por desgaste aparece a lo largo de meses, mientras que la recolección de basura genera picos de latencia repentinos. Abordarlas por separado no basta: una solución eficaz debe gestionar simultáneamente efectos de corto, mediano y largo plazo.

Sandook: una solución basada en software y en dos niveles

Para enfrentar el problema, el equipo desarrolló Sandook (palabra que en urdu significa “caja”, aludiendo al concepto de almacenamiento). Sandook es una solución puramente software que no requiere hardware especializado ni cambios en las aplicaciones. Su arquitectura se basa en dos niveles:

  • Un controlador global (global scheduler) que toma decisiones de alto nivel sobre cómo asignar tareas entre los SSD del pool, teniendo en cuenta perfiles y características de cada unidad.
  • Controladores locales en cada máquina que reaccionan rápidamente a eventos urgentes, como un pico de latencia por garbage collection, y redirigen operaciones para evitar cuellos de botella.

Esta combinación permite que el sistema planifique de forma estratégica mientras mantiene la capacidad de respuesta instantánea frente a incidencias multi-temporales.

Cómo maneja Sandook las tres fuentes de variabilidad

Sandook aplica varias tácticas para reducir el impacto conjunto de las variabilidades:

  • Rotación de roles read/write: para minimizar la interferencia entre lecturas y escrituras en una misma unidad, el sistema rota qué SSDs son usados para lecturas y cuáles para escrituras por parte de una aplicación. De este modo se reduce la probabilidad de que un read y un write concurran en el mismo dispositivo.

  • Perfilado de desempeño: Sandook registra el comportamiento típico de cada SSD a lo largo del tiempo. Ese perfil permite anticipar cuándo una unidad puede estar entrando en un periodo de menor rendimiento por desgaste o por inminente garbage collection.

  • Desvío selectivo de carga: si un controlador local detecta que un SSD está ejecutando garbage collection y su rendimiento cae, el sistema disminuye gradualmente la carga que se le asigna en lugar de desconectarlo por completo. Esto aprovecha cualquier capacidad remanente sin sobrecargarlo.

  • Asignación ponderada desde el global: el controlador global utiliza los perfiles para distribuir trabajo de manera ponderada, asignando más tareas a dispositivos con mejor desempeño y capacidad relativa.

Al combinar decisiones globales y reacciones locales, Sandook puede adaptarse en tiempo real a cambios repentinos y a degradaciones prolongadas.

Resultados en cargas reales

Los investigadores evaluaron Sandook en un pool de 10 SSDs con cuatro tipos de tareas representativas: ejecutar una base de datos, entrenar un modelo de machine learning, comprimir imágenes y almacenar datos de usuarios. Los resultados mostraron mejoras significativas con respecto a métodos estáticos:

  • Incremento de throughput por aplicación entre 12% y 94%.
  • Mejora de la utilización de la capacidad de SSD en 23%.
  • Las SSDs alcanzaron hasta el 95% de su rendimiento teórico sin necesidad de hardware especializado ni modificaciones en las aplicaciones.

Estos números indican que una gestión más inteligente del almacenamiento puede acercar a los dispositivos a su máximo potencial efectivo, disminuyendo la necesidad de añadir más recursos físicos.

Relevancia para América Latina: costo, sostenibilidad y adopción práctica

En América Latina muchas organizaciones enfrentan restricciones presupuestarias y plazos largos para renovar infraestructura. Además, la huella de carbono asociada a centros de datos es cada vez más relevante en planes de sostenibilidad corporativa. Soluciones como Sandook, que maximizan el rendimiento del hardware existente vía software, pueden ofrecer beneficios directos:

  • Reducción de inversión de capital al demorar la compra de nuevos SSDs.
  • Mejor uso de activos ya desplegados en centros de datos locales o en proveedores de colocation.
  • Ahorro energético indirecto al evitar la ampliación prematura de infraestructura, contribuyendo a metas de sostenibilidad.

Adicionalmente, la región está viendo crecimiento en cargas de IA y análisis de datos; herramientas que optimicen almacenamiento sin intervención hardware facilitan la adopción de estos proyectos por empresas medianas y grandes.

Implicaciones para decisiones tecnológicas

Sandook fue desarrollado por un equipo del MIT: Gohar Chaudhry (estudiante de posgrado en EECS), Ankit Bhardwaj (ahora en Tufts University), Zhenyuan Ruan PhD ’24 y el profesor Adam Belay, del MIT CSAIL. Los hallazgos se presentaron en el USENIX Symposium on Networked Systems Design and Implementation.

Para responsables de infraestructura y líderes de TI en la región, las lecciones clave son claras:

  • Antes de ampliar hardware, evalúen soluciones de software que mitiguen la variabilidad de rendimiento.
  • Consideren arquitecturas híbridas de control global y local para manejar eventos en distintas escalas de tiempo.
  • Prioricen pruebas con cargas reales (bases de datos, entrenamientos de modelos, compresión y almacenamiento) porque el impacto depende del tipo de trabajo.

Conclusión

Sandook demuestra que un enfoque inteligente de gestión de almacenamiento puede desbloquear una porción importante del rendimiento latente en los SSD actuales. Para organizaciones en América Latina, donde el costo y la sostenibilidad son prioridades, este tipo de soluciones representa una alternativa práctica para mejorar capacidad y rendimiento sin recurrir inmediatamente a nueva inversión en hardware. A medida que las cargas de IA y análisis de datos crecen, maximizar el uso eficiente de los recursos existentes será una ventaja competitiva tangible.

Fuente original: MIT News AI