¿Por qué no podemos usar $R^2$ para diferentes variables dependientes?

Question

¿Por qué no podemos usar $R^2$ para diferentes variables dependientes?

Preguntado el 3 de Mayo, 2017: Cuando se hizo la pregunta
397 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Imaginemos que tenemos un modelo de regresión lineal con variable dependiente $y$ . Encontramos su $R^2_y$ . Ahora, hacemos otra regresión, pero esta vez sobre $\log(y)$ y, del mismo modo, encontrar su $R^2_{\log(y)}$ . ¿Por qué no puedo comparar ambos $R^2$ para ver qué modelo es el más adecuado?

Intuitivamente diría que el logaritmo disminuirá la variabilidad, por lo que cualquier modelo mejorará una vez que "añadamos" la transformación logarítmica.

¿Hay alguna otra razón? ¿Hay alguna manera de formalizar esta intuición?

Se agradecería cualquier ayuda.

Preguntado el 3 de Mayo, 2017 por Brian Willis

Answer 1

3 Respuestas

Answer 2

1voto

Yacoby Puntos 603

$R^2$ mide el ajuste del modelo a los datos. Fíjate en el orden de esa frase, "el modelo a los datos", y no "los datos al modelo". Se trata de utilizar $R^2$ como criterio para seleccionar entre dos posibles ecuaciones. El hecho de que estés publicando aquí también significa probablemente que o bien alguien te ha dicho que no puedes hacer eso o que leas en internet que esto no funcionará. El hecho es que puede funcionar, pero no funciona bien.

Varios aspectos de cómo $R^2$ se calcula lo convierten en un criterio inadecuado. En primer lugar, y esta es la razón clásica, todo lo que hay que hacer para aumentar $R^2$ es añadir variables. Si se predijera el impacto de los sustitutos de la leche en el rendimiento de los bebés en una prueba física y se añadiera el precio de los diamantes de tres quilates, sin defectos y de color D, tal como se comercializan en Hong Kong, su $R^2$ puede subir, pero no bajará. Además, la suma total de los cuadrados cambiará bajo la transformación que usted propone. Por ello, no es adecuado utilizar una prueba F para comparar modelos.

Esto le lleva a la AIC y al BIC. Filosóficamente, el AIC y el BIC son aproximaciones algorítmicas del factor de Bayes para elegir entre los dos modelos. Como usted conoce sus datos y nosotros no, debería leer un libro sobre la selección de modelos, como este .

Sin embargo, dada la escasa información que ha proporcionado, parecería, al menos en apariencia, que el AIC o el BIC producirían resultados equivalentes. Esto se debe a que sólo tiene dos modelos y tienen el mismo número de parámetros.

Si no has utilizado antes un método bayesiano, invierten el sentido de la probabilidad. En lugar de suponer que un modelo es verdadero y determinar si los datos son tan extremos o más extremos que alguna norma, supone que los datos son fijos y no aleatorios y que los modelos son inciertos, por lo que selecciona los mejores parámetros y modelos basándose en los datos. No existe una hipótesis nula. Así que el AIC o el BIC son aproximaciones de probabilidades transformadas en una regla algorítmica.

Se diferencian en dos aspectos. En primer lugar, el BIC da a cada modelo la misma probabilidad a priori de ser "verdadero", mientras que el AIC da probabilidades en proporción a su número de parámetros, de modo que los modelos complejos son penalizados por ser complejos. En segundo lugar, aproximan la función de verosimilitud de forma diferente, de modo que el AIC acaba penalizando menos los modelos complejos que el BIC, a menos que el tamaño de la muestra sea grande.

La razón para utilizar cualquiera de estas herramientas, en lugar de un método bayesiano completo, es que son más rápidas, son buenas aproximaciones en la mayoría de las circunstancias a la solución bayesiana y son menos complejas que un proceso de selección de modelos bayesianos.

No se puede formalizar la idea de que el logaritmo reduce la volatilidad y crea más bonito modelos porque puede que no lo haga. Consideremos un modelo cuya verdadera forma es $y=5x+7$ y luego transformas esas variables. Es de esperar que un modelo log-lineal sea peor que el modelo sin transformar. Aunque el uso de los logaritmos reduciría la escala de todas las variables, $R^2$ se basa en la escala relativa. Dividir todas las variables por dos también reduciría la variabilidad, pero no mejoraría $R^2$ o la selección del modelo.

Respondido el 4 de Mayo, 2017 por Yacoby (603 Puntos )

Answer 3

0voto

Mark Embling Puntos 7337

Para pensar en la intuición es importante entender cómo $R^2$ se calcula. Podemos pensar en el R^2 como la relación de la variación estimada sobre la variación real total de la variable dependiente: $R^2=\frac{SSE}{SST}$ o $R^2=1-\frac{SSR}{SST}$ donde $SSE$ es la suma de cuadrados estimada, $SSR$ es la suma de cuadrados residual y $SST$ es la suma total de cuadrados. Por lo tanto, lo que el $R^2$ nos dice qué parte de la variación de la variable dependiente capta nuestro modelo. Sin embargo, siempre que cambiamos la variable dependiente no sólo cambiamos $SSE$ o $SSR$ pero también cambiamos $SST$ . Esto implica que el nuevo $R^2$ utiliza ahora una base de comparación diferente. Por lo tanto, generalmente no es comparable para diferentes variables dependientes debido a que la TSM es diferente. ¿Tiene esto sentido?

En los modelos de series temporales, esta es una preocupación bastante grande, ya que los modeladores a menudo juegan con la variable dependiente mediante la diferenciación, lo que afecta a la $R^2$ y hacer que las comparaciones no sean válidas, incluso cuando en algunos casos no tiene ningún impacto real en los residuos. Por ello, es habitual utilizar métricas basadas en los residuos que son invariables a este tipo de transformaciones.

Respondido el 4 de Mayo, 2017 por Mark Embling (7337 Puntos )

Answer 4

0voto

Brian Willis Puntos 5426

La respuesta sencilla es que estamos comparando diferentes variables dependientes, y normalmente éstas implican diferentes modelos, algunos de los cuales no satisfacen las hipótesis habituales. En este caso, tenemos

Modelo con variable dependiente $y_t$ implica que $\log(y_t)$ no es lineal en los parámetros.
Modelo con variable dependiente $\log(y_t)$ implica que $y_t$ no es lineal en los parámetros.

Por lo tanto, sólo uno puede satisfacer la linealidad. No tiene sentido comparar modelos. Sólo los comparamos, después de haber comprobado que cumplen las hipótesis.

Podemos simplemente comprobar cuál obedece a la linealidad a partir de un gráfico de datos, o de otra técnica, y entonces elegir ese.

Respondido el 9 de Mayo, 2018 por Brian Willis (5426 Puntos )

¿Por qué no podemos usar $R^2$ para diferentes variables dependientes?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

Finanhelp.com

Powered by:

¿Por qué no podemos usar $R^2$ para diferentes variables dependientes?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Finanhelp.com

Powered by: