1 votos

¿Por qué los coeficientes de regresión son diferentes en una submuestra?

Si estoy realizando una regresión lineal, por ejemplo, y quito algunos puntos, ¿no se ajustaría la misma línea/plano a los datos? Si no, ¿no mostraría eso que los datos no tienen una relación lineal?

Ejemplo: https://ocw.mit.edu/courses/economics/14-382-econometrics-spring-2017/lecture-notes/MIT14_382S17_lec1.pdf . En la página 10, en el ejemplo de la brecha salarial de género, encuentra un efecto predictivo de ~20% en la muestra completa y ~7% en la muestra de nunca casados. Pero entonces, si dWage/dGender depende del estado civil, ¿cómo puede ser correcta la forma funcional?

2voto

Matthias Benkard Puntos 11264

Si estoy realizando una regresión lineal, por ejemplo, y quito algunos puntos, ¿no seguiría ajustándose a los datos la misma línea/plano?

Aparte de los casos especiales no, OLS se ajusta a una línea que se crea sobre la base de la minimización de la suma de errores al cuadrado:

$$\min \sum e_i^2 = \min \sum (y_i-\hat{y_i})=\min \sum (y_i - \mathbf{x}_i^{\prime} \beta)^2 .$$

Si se eliminan algunas observaciones, es probable que cambie la función objetivo anterior, lo que hará que otra línea tenga el mejor ajuste a través de los datos (salvo en casos especiales, como cuando todas las observaciones están en una sola línea).

Si no es así, ¿no mostraría eso que los datos no tienen una relación lineal?

No necesariamente, se supone que existe una relación lineal entre las variables del "fondo", pero como no podemos observar directamente el proceso de generación de datos y siempre habrá algún término de perturbación aunque estemos seguros de que debería haber una relación lineal entre las dos variables, las observaciones no caerán necesariamente todas en una sola línea.

La no linealidad no puede detectarse sólo por el hecho de que la línea que se ajusta cambie cuando se eliminan algunos datos (aunque eso es un indicador de la solidez de un resultado: los resultados sólidos no deberían cambiar demasiado cuando se amplía/corta ligeramente la muestra). Sin embargo, se puede detectar la no linealidad de otras maneras. Por ejemplo, puede buscar patrones en el gráfico de residuos. Si el gráfico residual muestra algún patrón curvo, es un indicador de posible no linealidad. También existen pruebas rigurosas para detectar la no linealidad (como la prueba de Ramsey, etc.), pero repasar todas estas formas iría más allá del alcance de una respuesta de SE; puede leer más sobre ellas en libros de texto de econometría como Wooldridge Introductory Econometrics: A Modern Approach.

0 votos

Cómo hacer la prueba de ramsey de no linealidad

0 votos

@develarist eso requeriría una respuesta aparte. Si eso es lo que te interesa publícalo como una nueva pregunta en el sitio. O simplemente puedes buscar en Google la prueba de Ramsey para la no linealidad

0 votos

Dice que la prueba RESET de Ramsey es para probar la especificación errónea del modelo

1voto

Ben Puntos 129

Existe una posible ambigüedad en "ajustarse a los datos". Supongamos primero que un conjunto de puntos de datos de la muestra se encuentra exactamente en una línea recta, de modo que la línea estimada por regresión lineal con forma funcional lineal proporciona una perfecto (todos los residuos son cero). Supongamos que toma una submuestra (de al menos 2 puntos de datos no coincidentes) y ejecuta la regresión de nuevo. Se obtendrá exactamente la misma línea de regresión. Esto es cierto, además, tanto si la submuestra se selecciona al azar de la muestra original como si se selecciona de forma deliberada para excluir los puntos de datos asociados a determinadas características.

En un estudio empírico, el escenario anterior es, por supuesto, poco probable. Normalmente, hay un grado de aleatoriedad en la distribución de los puntos de datos. Por lo tanto, aunque una línea estimada por regresión lineal con forma funcional lineal proporcione un buen ajuste, éste será menos que perfecto (habrá algunos residuos distintos de cero). Debido a la aleatoriedad, si se vuelve a realizar la regresión con una submuestra de la muestra original, probablemente no se obtendrá exactamente la misma línea de regresión.

Si la muestra original era grande y se elige al azar una submuestra bastante grande, lo más probable es que las dos líneas de regresión no difieran mucho. Sin embargo, si la submuestra se elige deliberadamente (como en su ejemplo, para excluir a los individuos casados), es posible que las dos líneas de regresión difieran considerablemente, porque puede haber una diferencia real entre los individuos incluidos y los excluidos en la relación entre las variables de regresión. Sin embargo, incluso si las dos líneas de regresión difieren considerablemente, esto no implica que la forma funcional lineal de la línea original sea inapropiada. Simplemente muestra que la muestra a la que se ajustó la línea original incluye submuestras que difieren de forma relevante.

0 votos

Gracias por la respuesta: ¿hay algún punto en el que sería más apropiado presentar los MCO sobre las submuestras en lugar de los MCO sobre el conjunto de datos (es decir, el MCO de la muestra completa pierde relativamente su significado en algún momento)?

0 votos

@LawrenceWu No estoy seguro de entender exactamente lo que preguntas en tu comentario, pero lo siguiente puede ayudar. Siempre que se ejecuta una regresión para estimar parámetros, es importante tener claro cuál es la población de interés. Si tiene datos de una muestra aleatoria de su población de interés, no se gana nada ejecutando una regresión sobre una submuestra en lugar de sobre toda la muestra (sólo tendería a aumentar los errores estándar de las estimaciones de los parámetros). Ejecutar una regresión sobre una submuestra valdría la pena en dos circunstancias: a) si está interesado ...

0 votos

... en la estimación de los parámetros de una subpoblación, así como de toda la población; b) si la población de la que se extrajo la muestra original no le interesa (por ejemplo, porque está utilizando un conjunto de datos recogidos para otro fin), pero un subconjunto de esa población sí le interesa.

0voto

Apple Puntos 6

La relación puede ser diferente en una submuestra si se excluyen a propósito algunos datos demográficos. La relación lineal entre la educación de los hombres y los salarios y la educación de las mujeres y los salarios podría no ser la misma. Por eso las ecuaciones salariales controlan el efecto del género. Si se excluye el género, la relación podría cambiar aunque la relación siga siendo lineal tanto para los hombres como para las mujeres.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X