Machine Learning 5 min lectura
EMO: cómo preentrenar Mixture-of-Experts para lograr modularidad emergente
EMO es un modelo Mixture-of-Experts preentrenado end-to-end que logra que la modularidad emerja directamente de los datos. Permite usar únicamente el 12.5% de los expertos para una tarea dada y mantener desempeño cercano al modelo completo.