Intento de comprender qué modelo de regresión es más popular en el sector de las tarjetas de crédito minoristas: regresión logística o GLM con distribución de Poisson, y por qué.
Respuestas
¿Demasiados anuncios?"Una de las características atractivas de la función logística es el hecho de que está acotada entre 0 y 1, lo que la hace adecuada para representar probabilidades. "
"El modelo de intensidad de Poisson introducido en este artículo tiene todavía serias deficiencias a pesar del importante avance que ofrecen sus características dinámicas. En primer lugar, se sabe que es conocido por ser incapaz de capturar adecuadamente el fenómeno de de incumplimiento, como se documenta en Das et al. (2007). Otra limitación es que la agregación temporal a diferentes horizontes es fácil en principio pero difícil en la realidad. La intensidad de Poisson es una función conocida de los factores de riesgo comunes y de los atributos individuales de las empresas. Para que la agregación temporal llegue a un horizonte más largo de de interés, hay que prescribir los procesos dinámicos para todas estas variables cuyos valores futuros son desconocidos. La dimensión de la dyna"
etc.
http://jgscott.github.io/SDS325H_Spring2015/files/logit_poisson_cox.pdf
Según lo que he entendido al leer el documento anterior, creo que podría deberse a que Poisson se utiliza para datos de conteo y Logistic se utiliza para datos categóricos y tenemos datos categóricos al hacer la modelización de la Probabilidad de Incumplimiento (PD).
En el sector de la modelización del crédito es más popular el uso de la regresión logística con respecto a la de Poisson.
Esto se debe a varias razones. Aquí he enumerado las principales:
1) La regresión logística ha demostrado empíricamente ser mejor para describir este tipo de fenómenos en términos de rendimiento de previsión y capacidad de predicción (intente comparar el ratio de rendimiento de ambos: Ratio de exactitud, ROC,...).
2) La regresión logística sufre menos el problema de la sobredispersión que es una característica de los modelos de regresión de Poisson y sólo a veces puede resolverse utilizando un modelo de regresión bivariante, como, por ejemplo, en el caso del análisis del sector sanitario.
3) La regresión logística es más sencilla de implementar tanto desde el punto de vista de la programación como desde el punto de vista teórico.
Esto se refiere a la estimación de la probabilidad de impago. En otros casos, esto podría no ser del todo cierto.
Le sugiero que lea Análisis de datos categóricos de Agresti, para tener un conocimiento más profundo de este tema (desde el punto de vista econométrico) y, además, para intentar probar qué modelo es mejor; generalmente, es como el anterior, pero depende del ciclo económico, de la muestra de datos,... etc.