Las clases desequilibradas presentan un problema mínimo para los métodos estadísticos adecuados.
Una crítica habitual al desequilibrio de clases es que puede dar lugar a que los modelos clasifiquen siempre o a menudo como la clase mayoritaria. Sin embargo, la mayoría de los modelos no clasifican, sino que emiten puntuaciones en un continuo, como una regresión logística que emite una probabilidad. Los paquetes de software utilizan por defecto un umbral de corte de $0.5$ probabilidad, pero esto podría ser muy inadecuado para su tarea (tanto si las clases están equilibradas como si no). Un enfoque sencillo es simplemente ajustar el umbral. Un enfoque más sofisticado sería evaluar directamente las salidas de probabilidad con una métrica como la pérdida logarítmica o la puntuación de Brier (dos ejemplos de las llamadas "reglas de puntuación estrictamente adecuadas" que se minimizan de forma única en valor esperado por las probabilidades reales, por lo que buscan las probabilidades reales de los eventos).
Este tema surge muy a menudo en la pila de estadísticas, Validación cruzada que he recopilado una lista de enlaces a lecturas adicionales sobre el desequilibrio de clases y los métodos estadísticos adecuados que tratan el desequilibrio de clases.
https://stats.stackexchange.com/questions/357466
https://www.fharrell.com/post/class-damage/
https://www.fharrell.com/post/classification/
https://stats.stackexchange.com/a/359936/247274
https://stats.stackexchange.com/questions/464636/
https://stats.stackexchange.com/questions/558942/
https://stats.stackexchange.com/a/316114/247274
https://twitter.com/f2harrell/status/1062424969366462473?lang=en
(Para quienes no lo sepan, Frank Harrell fue el catedrático fundador de Bioestadística en la Universidad de Vanderbilt).
También disponemos de un Validación cruzada de metapost que trata este tema y enlaza con otro material (y mucho del mismo material).