Problema de optimización de la regresión bajo restricciones

Question

Problema de optimización de la regresión bajo restricciones

Preguntado el 27 de Abril, 2021: Cuando se hizo la pregunta
127 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estimar una regresión lineal simple:

$$ y = \beta_0 + \beta_1 x + \epsilon $$

Tengo la suposición de que un investigador $A$ sólo puede muestrear individuos con un valor $y < y^A$ . Del mismo modo, un investigador $B$ puede muestrear individuos con un valor $y <y^B$ con $y^B < y^A$ . También sé que $\beta_1 < 0$ .

¿Las estimaciones de los investigadores $A$ , $B$ ¿va a ser parcial?
Si es así, ¿cuál es el más tendencioso?
¿Cómo puedo ilustrar esto gráficamente?

Lo que he intentado hasta ahora, es asumir que $y^A = (\hat{\beta_0} + \hat{\beta_1}x)^A$ y luego traté de derivar el OLS para este modelo en su lugar, pero me tropiezo con los cálculos, es decir $$ \partial{(SSR)}/\partial{\beta_0} = -2A \sum{\left( y_i - (\beta_0 + \beta_1 x_i)^A\right) \left( \beta_0 + \beta_1 x_i\right)^{A-1}} = 0$$

¿Cómo me las arreglo a partir de aquí? Tengo la intuición de que debo utilizar un enfoque logarítmico?

Preguntado el 27 de Abril, 2021 por Matt

Answer 1

1 Respuestas

Answer 2

7voto

tdm Puntos 146

La situación se presenta en la siguiente imagen

La línea negra es la verdadera media condicional $E(y|x)$ . Si truncamos los datos, todas las observaciones por encima del truncamiento $Y^A$ no se observan.

Para valores bajos de $x$ observaremos (en promedio) valores más bajos de $y$ que sin el truncamiento. Por lo tanto, cuando $x$ es baja, la función media condicional observada (en azul) será inferior a la verdadera. Si se ajusta una función lineal a través de los puntos observados (por ejemplo, en rojo), se ajustará una función lineal que se aproxima a la azul. Será una función con una pendiente más plana (comparada con la media condicional verdadera en negro).

Lo que sigue no es exacto, sino que sólo da una idea de cómo enfocaría el problema analíticamente.

Supongamos que el verdadero proceso de generación de datos viene dado por: $$ y_i = \beta_0 - \beta_1 x_i + \varepsilon_i. $$ Donde, como siempre, $E(\varepsilon_i) = 0$ y $E(\varepsilon|x_i) = 0$ . La función media condicional es entonces igual a: $$ E(y_i|x_i) = \beta_0 - \beta_1 x_i + E(\varepsilon_i|x_i) = \beta_0 - \beta_1 x_i. $$

Ahora dejemos que $z_i$ sea la variable aleatoria igual a 1 si la observación $i$ no se trunca, es decir, cuando $$ \beta_0 - \beta_1 x_i + \varepsilon_i < Y^A. $$ Si $i$ no se observa, es decir, se trunca, tenemos $z_i = 0$ .

Entonces la media condicional observada es igual: $$ E(y_i|x_i,z_i=1) = \beta_0 - \beta_1 x_i + E(\varepsilon_i|x_i, z_i = 1). $$ El último término viene dado por: $$ E(\varepsilon_i|x_i, z_i = 1) = E(\varepsilon_i|x_i, \varepsilon_i < Y^A - \beta_0 + \beta_1 x_i) $$ Este último término, que es una función de $x_i$ es negativo (como $\varepsilon_i$ se trunca desde arriba y la media de los no truncados $\varepsilon$ es cero). Definir: $$ E(\varepsilon_i|x_i,\varepsilon_i < Y^A - \alpha_0 + \alpha_1 x_i) = g(x_i). $$ tenemos que $g(x_i) < 0$ y en general, esperaríamos que $g'(x_i) > 0$ porque la restricción es menos vinculante si $x_i$ se hace más grande (Sin embargo, esto probablemente no es siempre el caso, ya que $g$ depende de la forma de la distribución conjunta de $\varepsilon_i$ y $x_i$ .)

Entonces tenemos: $$ E(y_i|x_i, z_i = 1) = \alpha_0 + \beta_1 x_i + g(x_i), $$ Esta es la curva azul de la imagen. La pendiente de esta línea es igual: $$ \frac{\partial E(y_i|x_i, z_i = 1)}{\partial x_i} = -\beta_1 + g'(x_i) $$ El lado derecho de la primera ecuación es mayor que $-\beta_1$ (para que la pendiente sea más plana).

Obsérvese que, en general, la media condicional ya no será una función lineal de $x_i$ por lo que también habrá un sesgo de especificación. Esto también hace que no sea trivial determinar cuál será exactamente el sesgo del ajuste de una función lineal.

Bajar el valor de $Y^A$ dará lugar a un mayor sesgo (más negativo $g(x_i)$ ) y probablemente también a una pendiente más plana de la regresión estimada. Espero que esto sea intuitivo a partir de la imagen anterior.

Respondido el 27 de Abril, 2021 por tdm (146 Puntos )

Problema de optimización de la regresión bajo restricciones

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

Finanhelp.com

Powered by:

Problema de optimización de la regresión bajo restricciones

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Finanhelp.com

Powered by: