Remuestreo de un modelo probabilístico para equilibrar resultados

Question

Remuestreo de un modelo probabilístico para equilibrar resultados

Preguntado el 30 de Agosto, 2022: Cuando se hizo la pregunta
77 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Quería construir un modelo logit para determinar la probabilidad de que se produzca una recesión en un mes determinado utilizando los indicadores macro habituales; sin embargo, me di cuenta de que el 90% de los meses de mi intervalo eran expansivos y pensé que eso podría sesgar el modelo.

Pensé que podría ser más robusto hacer un bootstrap de las muestras de los meses de expansión y recesión por separado, de forma que las nuevas muestras estén equilibradas entre ambos. El modelo final sería entonces la media de los modelos bootstrap.

Puedo ver argumentos por los que esto podría funcionar, introducir sesgos o no tener ningún efecto.

Preguntado el 30 de Agosto, 2022 por Daniel Huckstep

Answer 1

1 Respuestas

Answer 2

3voto

farrah Puntos 6

Las clases desequilibradas presentan un problema mínimo para los métodos estadísticos adecuados.

Una crítica habitual al desequilibrio de clases es que puede dar lugar a que los modelos clasifiquen siempre o a menudo como la clase mayoritaria. Sin embargo, la mayoría de los modelos no clasifican, sino que emiten puntuaciones en un continuo, como una regresión logística que emite una probabilidad. Los paquetes de software utilizan por defecto un umbral de corte de $0.5$ probabilidad, pero esto podría ser muy inadecuado para su tarea (tanto si las clases están equilibradas como si no). Un enfoque sencillo es simplemente ajustar el umbral. Un enfoque más sofisticado sería evaluar directamente las salidas de probabilidad con una métrica como la pérdida logarítmica o la puntuación de Brier (dos ejemplos de las llamadas "reglas de puntuación estrictamente adecuadas" que se minimizan de forma única en valor esperado por las probabilidades reales, por lo que buscan las probabilidades reales de los eventos).

Este tema surge muy a menudo en la pila de estadísticas, Validación cruzada que he recopilado una lista de enlaces a lecturas adicionales sobre el desequilibrio de clases y los métodos estadísticos adecuados que tratan el desequilibrio de clases.

https://stats.stackexchange.com/questions/357466

https://www.fharrell.com/post/class-damage/

https://www.fharrell.com/post/classification/

https://stats.stackexchange.com/a/359936/247274

https://stats.stackexchange.com/questions/464636/

https://stats.stackexchange.com/questions/558942/

https://stats.stackexchange.com/a/316114/247274

https://twitter.com/f2harrell/status/1062424969366462473?lang=en

(Para quienes no lo sepan, Frank Harrell fue el catedrático fundador de Bioestadística en la Universidad de Vanderbilt).

También disponemos de un Validación cruzada de metapost que trata este tema y enlaza con otro material (y mucho del mismo material).

Respondido el 13 de Septiembre, 2022 por farrah (6 Puntos )