Mi regresión inicial fue la cantidad de viviendas de nueva construcción en promedio por ingreso personal per cápita, porcentaje de desempleo, PIB, número de unidades de vivienda actuales y población; todo a nivel de condado de EE. UU. para 2022. Transformé logarítmicamente todas las variables excepto el porcentaje de desempleo. Luego eliminé el número de unidades de vivienda actuales y la población de la regresión debido a la alta multicolinealidad con el PIB. Pero hay un problema de endogeneidad con la variable de ingresos que es simultaneidad (un mayor ingreso per cápita puede aumentar las tasas de construcción pero las tasas de construcción más altas pueden a su vez crear oportunidades que aumenten los ingresos). Así que mi plan se convirtió en correr una regresión IV con el nivel educativo (medido por el % de adultos con título de licenciatura). Corrí la regresión y creé este gráfico solo para encontrar que tiene una forma extraña. Luego creé muchos más gráficos para regresiones aleatorias y todos se ven así. La única excepción es cuando regreso las tasas de construcción a la educación y luego trazo los residuos en contra de la educación misma.
Mis preguntas:
¿Por qué todos mis gráficos se ven así (y no están dispersos de manera uniforme)? ¿Es debido a problemas de endogeneidad adicionales entre el PIB, el desempleo, los ingresos, etc?
¿Hay otros problemas con la forma en que he creado mi modelo/corrido la regresión?