Modelos de IA que entienden principios químicos

El desafío del universo químico

El número de compuestos químicos que potencialmente podrían servir como fármacos para pequeñas moléculas es inmenso; los expertos estiman que hay entre 10^20 y 10^60 candidatos posibles. Evaluar experimentalmente incluso una fracción de ese espacio es inviable, por lo que la inteligencia artificial se ha vuelto una herramienta clave para priorizar compuestos, predecir resultados y diseñar rutas de síntesis.

De la formación a la investigación interdisciplinaria

Connor Coley, profesor asociado del MIT con nombramientos en Ingeniería Química y Ciencias de la Computación, ha desarrollado una carrera en la intersección entre química y computación. Su trayectoria combina trabajo en laboratorio con el desarrollo de modelos computacionales que analizan grandes catálogos de compuestos, proponen nuevas moléculas y sugieren vías de reacción para sintetizarlas.

Desde sus inicios —participando en Olimpiadas de Ciencia y estudiando Ingeniería Química en Caltech— Coley integró programación y biología estructural en su formación. Durante su doctorado en MIT, trabajó en optimización de reacciones químicas automatizadas y en la unión de machine learning con la denominada chemoinformática, encaminada a planificar rutas de síntesis para moléculas con potencial terapéutico. También participó en el desarrollo de hardware para ejecutar reacciones de forma automática, en el marco de programas como Make‑It financiado por DARPA.

Antes de asumir su puesto en la facultad de MIT a los 25 años, realizó una estancia postdoctoral en el Broad Institute para profundizar en biología química y descubrimiento de fármacos, donde trabajó en identificar pequeñas moléculas en bibliotecas codificadas por ADN que pudieran unirse a proteínas mutadas relacionadas con enfermedades.

Incorporar la intuición química en modelos generativos

Una dificultad central al aplicar IA a la química es que los modelos de aprendizaje automático no piensan como químicos. Los especialistas razonan en términos de mecanismos, pasos intermedios y leyes físicas fundamentales —por ejemplo, la conservación de la masa—, y no solo en coincidencias estadísticas entre estructuras.

El laboratorio de Coley desarrolló modelos que intentan cerrar esa brecha. Uno de ellos, llamado ShEPhERD, evalúa cómo interactuaría una molécula candidata con un objetivo proteico considerando la forma tridimensional de la molécula. Este enfoque busca dotar a los modelos generativos de una “intuición” más propia de la química medicinal, orientando la generación hacia criterios relevantes para diseñar fármacos.

Otro proyecto, FlowER, aborda la predicción de productos de reacción. En su diseño los investigadores introdujeron principios físicos —como la conservación de masa— y la consideración explícita de la factibilidad de los pasos intermedios en la vía desde reactivos hasta productos. Al forzar al modelo a ponderar mecanismos y etapas intermedias, aumentaron la precisión de las predicciones y hicieron que las salidas sean más coherentes con el razonamiento químico.

Del laboratorio a la industria

Los resultados de estos esfuerzos ya han trascendido el laboratorio académico: empresas farmacéuticas usan modelos como ShEPhERD para apoyar sus programas de descubrimiento de fármacos. La incorporación de criterios químicos explícitos hace que las predicciones no solo sean más precisas, sino también más accionables para equipos de química medicinal.

Además, la combinación de modelos computacionales con hardware de síntesis automatizada permite cerrar el ciclo: el sistema puede proponer una molécula, planear una ruta de síntesis y ejecutar experimentos de forma semiautónoma para validar candidatos. Esa integración es especialmente valiosa para acelerar ciclos de diseño‑prueba‑aprendizaje.

Relevancia para América Latina

Para la región latinoamericana, donde la biotecnología y la industria farmacéutica están en expansión, estas herramientas representan una oportunidad para potenciar capacidades locales. Instituciones universitarias y centros de investigación pueden aprovechar modelos que priorizan compuestos y optimizan síntesis para focalizar recursos experimentales en candidatos más prometedores.

Además, la automatización de reacciones y los flujos computacionales pueden ayudar a laboratorios con restricciones de personal o tiempo a escalar proyectos de investigación aplicada. Sin embargo, la adopción exige inversiones en infraestructura computacional, acceso a datos de calidad y formación interdisciplinaria entre químicos y científicos de datos.

Retos y consideraciones éticas

Aunque los avances son prometedores, hay desafíos claros. La calidad y representatividad de los datos de entrenamiento condicionan el rendimiento; un modelo bien diseñado puede fallar si se alimenta con datos incompletos o sesgados. Asimismo, es crucial mantener transparencia sobre las limitaciones de las predicciones y asegurar que las herramientas se utilicen para complementar, no reemplazar, el juicio experimental y clínico.

También es relevante considerar aspectos regulatorios y de seguridad: a medida que modelos y automatización aceleran el diseño de compuestos, los marcos normativos deben evolucionar para garantizar ensayos seguros y éticos, además de proteger la propiedad intelectual y la bioprotección.

Hacia modelos más explicables y robustos

El trabajo de Coley y su equipo muestra una dirección clara: no basta con modelos de caja negra que correlacionan estructuras con actividad; es necesario incorporar conocimiento físico‑químico y mecanismos plausibles. Esa combinación mejora la utilidad práctica de la IA en química y facilita su integración en procesos industriales.

A futuro, la comunidad investigadora seguirá explorando cómo hacer que los modelos sean más explicables, cómo integrar mejor la automatización experimental y cómo democratizar el acceso a estas herramientas para que organizaciones en distintas regiones, incluida América Latina, puedan beneficiarse.

Conclusión

La convergencia entre aprendizaje automático, chemoinformática y automatización experimental está redefiniendo el descubrimiento y la síntesis de moléculas. Al incorporar principios químicos explícitos —como la conservación de la masa y la factibilidad de pasos intermedios—, los modelos dejan de ser meras cajas estadísticas y se acercan más a la intuición del químico. Para la industria y la investigación en Latinoamérica esto abre oportunidades de acelerar proyectos, optimizar recursos y participar con más fuerza en la innovación farmacéutica global.