Estoy haciendo un modelo de scoring crediticio y me sale que una variable tiene un valor de información (IV) superior a 1, ¿es posible?
Fórmulas son bastante simples para el peso de la evidencia (WoE) y el valor de la información (IV)
$$WoE_i = \log \left( \dfrac{\dfrac{g_i}{g}}{\dfrac{b_i}{b}} \right)$$ donde $g_i$ representa el número de productos (no por defecto) en la categoría $i$ de la variable $x_i$ , $b_i$ representa el número de malas (por defecto) en la categoría $i$ de la variable $x_i$ , $g$ representa el número de bienes (no por defecto) en todo el conjunto de datos, $b$ representa el número de malas (por defecto) en todo el conjunto de datos, $N(x)$ es el número de niveles de la variable $x$ es decir, el número de categorías $$IV = \sum_{i=1}^{N(x)}\left( \dfrac{g_i}{g} - \dfrac{b_i}{b} \right) \cdot WoE_i$$
Además, ¿qué es un ajuste perfecto en el modelo?
Por el ajuste perfecto entiendo que sólo hay dos categorías en x: la primera incluye todos los bienes y la segunda incluye todos los males. En ese caso, al calcular $WoE_1$ Obtengo 0 en $log$ denominador, porque $b_1 = 0$ . Al calcular $WoE_2$ Obtengo 0 en $log$ numerador, porque $g_2 = 0$ . ¿Tiene sentido?