2 votos

Conexiones entre la regresión logística, el valor de la información y Kullback-Leibler

Soy nuevo en la modelización del riesgo de crédito, mi formación es en matemáticas y física, por lo que estoy buscando justificar algunas técnicas comúnmente utilizadas desde los primeros principios.

Supongamos que estamos interesados en modelar un predictor binario $Y=0,1$ con sujeción a $m$ predictores $x_1,...,x_m$ . En primer lugar, vamos a examinar un modelo más sencillo del impacto de $x_j$ sobre la respuesta $Y$ . Por la fórmula de Bayes tenemos $$P(Y=1|x_j) = P(x_j|Y=1)P(Y=1) $$ $$P(Y=0|x_j) = P(x_j|Y=0)P(Y=0). $$ A partir de estas dos expresiones obtenemos

$$\log\left(\frac{P(Y=1|x_j)}{P(Y=0|x_j)}\right) = \log\left(\frac{P(Y=1)}{P(Y=0)} \right) + \log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right). $$ Si asumimos ahora que todos los predictores $x_1,...,x_m$ son independientes, entonces encontramos una ecuación similar: $$\log\left(\frac{P(Y=1|x_1,...x_m)}{P(Y=0|x_1,...,x_m)}\right) = \log\left(\frac{P(Y=1)}{P(Y=0)} \right) + \sum^m_{j=1}\log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right). $$

Dado que esta es una suposición tan fuerte para colocar en nuestros predictores, asumimos la forma Naïve Bayes: $$\log\left(\frac{P(Y=1|x_1,...x_m)}{P(Y=0|x_1,...,x_m)}\right) = \log\left(\frac{P(Y=1)}{P(Y=0)} \right) + \sum^m_{j=1}\beta_j\log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right)$$ donde el $\beta_j$ son estimados. El término $\log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right)$ se denomina peso de las pruebas ( $WOE$ ), y su poder de predicción se mide por el llamado valor de información definido por

$$IV_j = \int \log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right)\left(P(x_j|Y=1)- P(x_j|Y=0) \right)dx. $$

Este método es una técnica estándar en la modelización del riesgo de crédito. Muchas fuentes en Internet (Siddiqi 2006) afirman el criterio
$$\text{if}\ IV< 0.02, \ \text{then useless for prediction } $$ $$\text{if}\ 0.02<IV< 0.1, \ \text{then weak predictive power } $$ $$\text{if}\ 0.1<IV< 0.3, \ \text{then medium predictive power } $$ $$\text{if}\ 0.3<IV< 0.5, \ \text{then strong predictive power } $$ $$\text{if}\ IV> 0.5, \ \text{then suspicious predictive power.} $$

Además, el valor de la información puede escribirse en términos de la divergencia de Kullback-Leibler $$IV_j = D_{KL}\left(P(x_j|Y=1)||P(x_j|Y=0)\right) + D_{KL}\left(P(x_j|Y=0)||P(x_j|Y=1)\right).$$ Dicho esto, tengo las siguientes preguntas:

  1. ¿Cuál es la interpretación bayesiana de la $\beta_j$ ? ¿Cómo es $\beta_j$ ¿se relaciona con la dependencia de las restantes variables? No me resulta evidente cómo se puede obtener la fórmula logarítmica de Naïve Bayes partiendo de los primeros principios, es decir, de la fórmula de Bayes. Parece que no se puede, ¿hay alguna relación con las jerarquías bayesianas, las correlaciones, etc.?
  2. ¿Cuál es la base matemática de los límites del valor de la información y su poder de predicción? No está claro por qué surgen estos límites y, por tanto, por qué deberían seguirse. Me parece que todas las referencias a los límites del valor de la información se determinaron empíricamente.
  3. ¿De dónde procede el valor de la información? De la divergencia KL, $D(P||Q)$ puede interpretarse de varias maneras, concretamente como la "distancia" entre dos distribuciones. La divergencia desaparece si $P=Q$ Entonces, ¿el criterio anterior proviene del deseo de que la divergencia sea lo suficientemente pequeña pero no demasiado?

Gracias por su tiempo.

2voto

user43142 Puntos 1

Pido disculpas por rebajar el tono de su bien formulada pregunta, pero mi interpretación casual de un importante proyecto de riesgo crediticio (2003-2005) asesorado indirectamente por Siddiqi, fue que el tramo de IV > 0,5 "sospechosamente alto" era una cruda señal de comprobación de cordura de que el predictor tenía una relación no natural con la respuesta, posiblemente causada por (básicamente) errores en la forma en que los analistas habían reunido los datos.

Podría dar un par de ejemplos de este tipo, aunque eso sería una digresión.

Calculamos el IV en cada predictor individualmente como una etapa de selección. Los predictores eran categóricos, y se habían agrupado o agrupado cuando era necesario. El proceso seguía los apuntes de Siddiqi (más adelante, libro):

Siddiqi, Naeem. 2005. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. Hoboken: Wiley.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X