DPO más allá de chatbots: cómo solucionar la degeneración de texto en OCR
Un experimento reciente con DharmaOCR mostró que Direct Preference Optimization (DPO), usado tradicionalmente para alinear chatbots, también mitiga loops de repetición en tareas objetivas como OCR. Aplicado tras el fine-tuning supervisado, DPO redujo consistentemente la degeneración de texto en varios modelos.