1 votos

¿Por qué se ve mi gráfico (residuos vs valores ajustados) de esta manera?

Mi regresión inicial fue la cantidad de viviendas de nueva construcción en promedio por ingreso personal per cápita, porcentaje de desempleo, PIB, número de unidades de vivienda actuales y población; todo a nivel de condado de EE. UU. para 2022. Transformé logarítmicamente todas las variables excepto el porcentaje de desempleo. Luego eliminé el número de unidades de vivienda actuales y la población de la regresión debido a la alta multicolinealidad con el PIB. Pero hay un problema de endogeneidad con la variable de ingresos que es simultaneidad (un mayor ingreso per cápita puede aumentar las tasas de construcción pero las tasas de construcción más altas pueden a su vez crear oportunidades que aumenten los ingresos). Así que mi plan se convirtió en correr una regresión IV con el nivel educativo (medido por el % de adultos con título de licenciatura). Corrí la regresión y creé este gráfico solo para encontrar que tiene una forma extraña. Luego creé muchos más gráficos para regresiones aleatorias y todos se ven así. La única excepción es cuando regreso las tasas de construcción a la educación y luego trazo los residuos en contra de la educación misma.

Mis preguntas:

¿Por qué todos mis gráficos se ven así (y no están dispersos de manera uniforme)? ¿Es debido a problemas de endogeneidad adicionales entre el PIB, el desempleo, los ingresos, etc?

¿Hay otros problemas con la forma en que he creado mi modelo/corrido la regresión?

Salida de Stata: dispersión de residuos valores ajustados

0voto

Matthias Benkard Puntos 11264

¿Por qué todos mis gráficos se ven así (y no se distribuyen de manera uniforme)? ¿Es debido a problemas de endogeneidad adicional entre el PIB, el desempleo, el ingreso, etc.?

Probablemente haya alguna endogeneidad entre tu variable dependiente y las variables independientes. Por ejemplo, una mayor densidad de viviendas podría llevar a un mayor crecimiento del PIB al permitir que más personas se muden, y es bien sabido que una mayor densidad de población está relacionada con el crecimiento económico (al menos a corto plazo).

Sin embargo, generalmente no se puede detectar la endogeneidad desde el gráfico residual (ver esta excelente explicación), por lo que no atribuiría ese patrón a la endogeneidad. En general, no hay buenas aproximaciones estadísticas puras para detectar la endogeneidad, debes usar teoría y razonamiento cuando se trata de la endogeneidad.

Lo que puedes descubrir del gráfico residual son cosas como la heterocedasticidad, autocorrelación o la mala especificación del modelo (por ejemplo, tratar de ajustar un modelo lineal a una relación no lineal).

  • La heterocedasticidad se mostraría en una distribución no uniforme de los residuos (pero este no parece ser tu problema).

  • La autocorrelación se ve en residuos bajos siguiendo a otros residuos bajos y residuos altos siguiendo a otros residuos altos. Este es típicamente un problema en series temporales, pero a menudo a los estudiantes no se les enseña que también existe la autocorrelación espacial. En tu caso, creo que, basándome en las visualizaciones, hay autocorrelación presente (aunque siempre recomiendo a las personas que realicen pruebas en lugar de estimarlo visualmente).

  • Puedes detectar una mala especificación al ver alguna relación en tu gráfico residual. Claramente este es un problema en tu caso. Parece que te falta algún regresor importante en tu caso.

También estoy un poco desconcertado por la 'línea' formada por los residuos debajo del bloque de otros residuos. Podría indicar que tienes algunos datos truncados o posiblemente censurados. Es algo que recomendaría investigar.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X