Soy nuevo en la modelización del riesgo de crédito, mi formación es en matemáticas y física, por lo que estoy buscando justificar algunas técnicas comúnmente utilizadas desde los primeros principios.
Supongamos que estamos interesados en modelar un predictor binario $Y=0,1$ con sujeción a $m$ predictores $x_1,...,x_m$ . En primer lugar, vamos a examinar un modelo más sencillo del impacto de $x_j$ sobre la respuesta $Y$ . Por la fórmula de Bayes tenemos $$P(Y=1|x_j) = P(x_j|Y=1)P(Y=1) $$ $$P(Y=0|x_j) = P(x_j|Y=0)P(Y=0). $$ A partir de estas dos expresiones obtenemos
$$\log\left(\frac{P(Y=1|x_j)}{P(Y=0|x_j)}\right) = \log\left(\frac{P(Y=1)}{P(Y=0)} \right) + \log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right). $$ Si asumimos ahora que todos los predictores $x_1,...,x_m$ son independientes, entonces encontramos una ecuación similar: $$\log\left(\frac{P(Y=1|x_1,...x_m)}{P(Y=0|x_1,...,x_m)}\right) = \log\left(\frac{P(Y=1)}{P(Y=0)} \right) + \sum^m_{j=1}\log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right). $$
Dado que esta es una suposición tan fuerte para colocar en nuestros predictores, asumimos la forma Naïve Bayes: $$\log\left(\frac{P(Y=1|x_1,...x_m)}{P(Y=0|x_1,...,x_m)}\right) = \log\left(\frac{P(Y=1)}{P(Y=0)} \right) + \sum^m_{j=1}\beta_j\log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right)$$ donde el $\beta_j$ son estimados. El término $\log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right)$ se denomina peso de las pruebas ( $WOE$ ), y su poder de predicción se mide por el llamado valor de información definido por
$$IV_j = \int \log\left(\frac{P(x_j|Y=1)}{P(x_j|Y=0)} \right)\left(P(x_j|Y=1)- P(x_j|Y=0) \right)dx. $$
Este método es una técnica estándar en la modelización del riesgo de crédito. Muchas fuentes en Internet (Siddiqi 2006) afirman el criterio
$$\text{if}\ IV< 0.02, \ \text{then useless for prediction } $$ $$\text{if}\ 0.02<IV< 0.1, \ \text{then weak predictive power } $$ $$\text{if}\ 0.1<IV< 0.3, \ \text{then medium predictive power } $$ $$\text{if}\ 0.3<IV< 0.5, \ \text{then strong predictive power } $$ $$\text{if}\ IV> 0.5, \ \text{then suspicious predictive power.} $$
Además, el valor de la información puede escribirse en términos de la divergencia de Kullback-Leibler $$IV_j = D_{KL}\left(P(x_j|Y=1)||P(x_j|Y=0)\right) + D_{KL}\left(P(x_j|Y=0)||P(x_j|Y=1)\right).$$ Dicho esto, tengo las siguientes preguntas:
- ¿Cuál es la interpretación bayesiana de la $\beta_j$ ? ¿Cómo es $\beta_j$ ¿se relaciona con la dependencia de las restantes variables? No me resulta evidente cómo se puede obtener la fórmula logarítmica de Naïve Bayes partiendo de los primeros principios, es decir, de la fórmula de Bayes. Parece que no se puede, ¿hay alguna relación con las jerarquías bayesianas, las correlaciones, etc.?
- ¿Cuál es la base matemática de los límites del valor de la información y su poder de predicción? No está claro por qué surgen estos límites y, por tanto, por qué deberían seguirse. Me parece que todas las referencias a los límites del valor de la información se determinaron empíricamente.
- ¿De dónde procede el valor de la información? De la divergencia KL, $D(P||Q)$ puede interpretarse de varias maneras, concretamente como la "distancia" entre dos distribuciones. La divergencia desaparece si $P=Q$ Entonces, ¿el criterio anterior proviene del deseo de que la divergencia sea lo suficientemente pequeña pero no demasiado?
Gracias por su tiempo.