NEXUS: modelo tabular grande en SageMaker

Qué es NEXUS

NEXUS es un Large Tabular Model desarrollado por Fundamental y optimizado para predicciones sobre datos tabulares. A diferencia de los grandes modelos de lenguaje (LLMs), que están orientados al texto, o los enfoques clásicos de machine learning que requieren mucho trabajo de ingeniería de características y entrenamiento específico, NEXUS llega pre-entrenado en miles de millones de tareas reales de predicción sobre tablas. Esto le permite identificar señales relevantes en datos estructurados desde el inicio.

El modelo fue concebido para procesar números, categorías, fechas y texto no estructurado dentro de tablas empresariales, y para razonar sobre relaciones multidimensionales sin tratar los registros como secuencias. Entre sus variantes hay una versión base (pre-entrenada en más de 10 mil millones de filas tabulares) y modelos orientados a industrias como finanzas, salud y manufactura.

Por qué importa para los datos tabulares en empresas

La mayor parte de la toma de decisiones empresariales se apoya en datos que viven en tablas: hojas de cálculo, ERPs, CRMs y bases relacionales. Tradicionalmente, construir y desplegar un modelo de ML para un caso de uso concreto puede tomar meses: limpieza de datos, ingeniería de características, selección de modelos y validación. Los LLMs, por su parte, presentan retos para datos numéricos y estructurados: son no determinísticos y pierden contexto numérico durante la tokenización, lo que requiere medidas adicionales para garantizar precisión.

NEXUS está diseñado específicamente para este tipo de información. Su arquitectura busca reducir el tiempo entre datos crudos y predicciones de producción, ofreciendo resultados determinísticos y capacidades nativas para tratar tablas complejas.

Innovaciones clave de NEXUS

Determinismo: produce resultados consistentes y reproducibles para cada predicción individual, a diferencia de modelos probabilísticos que pueden variar en salidas ante la misma entrada.
Comprensión nativa de tablas: maneja distintos tipos de datos sin necesidad de ingeniería manual extensa.
Razonamiento no secuencial: analiza relaciones multivariadas en tablas en lugar de predecir elementos en secuencia.
Invarianza a la permutación: reconoce que el orden de las columnas no altera el significado de la tabla, algo que difiere del tratamiento típico por transformers convencionales.
Capacidad para grandes volúmenes: está preparado para procesar conjuntos de datos de miles de millones de filas sin truncamiento o muestreo forzado.
Razonamiento cross-schema: conecta información relacionada entre tablas diferentes de forma automática.
Limpieza autónoma: puede manejar entradas incompletas y aún así generar predicciones útiles.

Cómo funciona NEXUS en Amazon SageMaker AI

Amazon SageMaker AI integra NEXUS a través de SageMaker JumpStart y un flujo gestionado que simplifica despliegue y operación:

Suscribirse y desplegar: se debe suscribir al paquete del modelo NEXUS en AWS Marketplace y desplegarlo como un endpoint de inferencia gestionado por SageMaker AI. El despliegue recomendado utiliza la instancia ml.p5en.48xlarge (8× NVIDIA H200 GPUs) en un entorno dedicado y aislado.
Instalar el SDK: Fundamental proporciona un SDK en Python que se conecta al endpoint de SageMaker. El SDK expone una API compatible con scikit-learn, con estimadores como NEXUSClassifier y NEXUSRegressor.
Subir datos a Amazon S3: el SDK serializa sus tablas y las sube a un bucket de Amazon S3 en su cuenta para el procesamiento.
Entrenamiento: el flujo es muy directo: por ejemplo, llamar a clf.fit(X_train, y_train) permite entrenar aprovechando la limpieza y extracción de características automática que realiza NEXUS, sin necesidad de pipelines manuales extensos.
Generar predicciones: use clf.predict(X_test) para obtener predicciones determinísticas o clf.predict_proba(X_test) para estimaciones de probabilidad. Los resultados se guardan de nuevo en su bucket de S3.

Durante todo el proceso, sus datos permanecen dentro de su entorno AWS y el endpoint es single-tenant y network-isolated, lo que facilita cumplir requerimientos de seguridad y cumplimiento para cargas de trabajo sensibles.

Seguridad, gobernanza y cumplimiento

El despliegue en una instancia dedicada y aislada reduce riesgos asociados a entornos compartidos. Además, como los artefactos de datos y resultados residen en su cuenta de AWS (Amazon S3), los equipos de seguridad y cumplimiento pueden aplicar las políticas internas de cifrado, control de acceso y auditoría. Esto es particularmente relevante en sectores regulados como finanzas y salud.

Casos de uso representativos

NEXUS puede acelerar proyectos en múltiples industrias donde predominan los datos tabulares:

Servicios financieros: detección de fraude analizando patrones de transacciones, modelado de riesgo crediticio con extracción automática de características y cumplimiento regulatorio mediante extracción estructurada de documentos.
Salud: emparejamiento de pacientes para ensayos clínicos a partir de registros electrónicos, apoyo en descubrimiento de fármacos analizando datos de ensayos y estratificación de riesgo de pacientes para predecir readmisiones en unidades críticas.
Manufactura y cadena de suministro: mantenimiento predictivo a partir de datos de sensores, forecasting de demanda para gestionar inventarios y análisis de riesgo de proveedores.

Para organizaciones en América Latina, estos casos de uso son especialmente relevantes en sectores como banca, salud privada y grandes cadenas de retail y manufactura, donde muchas decisiones aún dependen de datos en tablas y sistemas ERP/CRM locales.

Cómo empezar en SageMaker JumpStart

Para comenzar con NEXUS en SageMaker JumpStart:

Abra Amazon SageMaker JumpStart en su consola de AWS.
Busque “Fundamental NEXUS” y seleccione la variante que mejor se ajuste: modelo base o variantes por industria (finanzas, salud, manufactura).
Siga el proceso de suscripción en AWS Marketplace y despliegue el endpoint gestionado.
Instale el SDK de Fundamental en su entorno de desarrollo, conecte con el endpoint y comience a serializar sus tablas hacia S3 para entrenar y predecir.

Consideraciones para adopción en América Latina

Al evaluar NEXUS, los equipos latinoamericanos deberían considerar la calidad y la gobernanza de sus datos tabulares, la latencia y la ubicación de los datos frente a las regiones de AWS disponibles, y los requisitos regulatorios locales sobre datos sensibles. El enfoque administrado y la ejecución en instancias aisladas pueden facilitar la alineación con políticas internas y con marcos regulatorios sectoriales.

Conclusión

NEXUS representa un avance para organizaciones que dependen de predicciones sobre datos tabulares: reduce la necesidad de ingeniería manual intensiva, ofrece resultados determinísticos y se integra con el ecosistema gestionado de SageMaker. Para empresas en América Latina que buscan acelerar proyectos de ML sobre datos estructurados, NEXUS en SageMaker JumpStart ofrece un camino más directo desde tablas crudas hasta predicciones de producción, manteniendo control sobre seguridad y gobernanza de los datos.