5 votos

Sesgo de selección - ¿Las regresiones múltiples resolverán el problema?

Ahora tengo datos de un país africano sobre i) los niveles de corrupción en los sectores públicos y ii) las percepciones de la calidad del servicio de los hogares (mala, media y alta). Los datos consisten en dos tipos de hogares: los que han utilizado los servicios públicos y los que NO lo han hecho.

He leído varios artículos de algunas revistas respetadas (World Development, Journal of Development Economics) que abordan el problema del sesgo de selectividad: los que no se han dedicado a los servicios públicos podrían hacerlo porque sabían que tendrían que sobornar (corrupción) o tenían malas experiencias del pasado, y terminarían sintiéndose mal.

Los autores de los artículos, sin embargo, no usan modelos Heckit, que he aprendido de mi título. En su lugar, argumentan que ejecutando dos regresiones: i) utilizando los datos de quienes realmente utilizaron los servicios y ii) todos los hogares de la muestra, independientemente del uso de los servicios. Creo que este enfoque no es correcto.

Deseo entender mejor cómo se debe manejar el sesgo de selección, particularmente en este ejemplo. Algunos problemas con los datos son que los datos pueden ser subjetivos, bastante pequeños (alrededor de 500 hogares) y propensos a errores de medición. ¿Tiene usted alguna sugerencia para hacer frente a los problemas?

Muchas gracias.

3voto

Kevin Puntos 6567

Lo que se refiere es a los mínimos cuadrados de dos etapas. Se trata de una variable instrumental que se aplica habitualmente para corregir la endogeneidad y el sesgo de selección. Es un tema bastante candente en economía en este momento y, cuando se aplica correctamente, puede ser muy útil y eliminará el sesgo de selección.

Hay algunas condiciones y suposiciones - Supongamos que se quiere estimar esta ecuación

$y_i = \beta x_i +\epsilon_i$ donde

  • $i$ indexa las observaciones,
  • $y_i$ es la variable dependiente,
  • $x_i$ es una variable independiente,
  • $\epsilon_i$ es un término de error no observado que representa todas las causas de $y_i$ que no sea $x_i$
  • $\beta$ es un parámetro escalar no observado.

sospechamos que $x_i$ es endógena

  • ( $cov(x_i, \epsilon)\neq 0$ )

pero tenemos una variable $z_i$ que se correlaciona con $x_i$ pero sin correlación con $\epsilon$

  • ( $cov(z_i, x_i) \neq 0$ y $cov(z_i, \epsilon)=0$ ).

Este es un candidato para la 2SLS:

La primera etapa consiste en estimar $x_i$ :

$\hat x_i= \hat \gamma z_i + \epsilon$

La segunda etapa consiste en estimar $y_i$

$y_i= \beta \hat x_i+ \epsilon$

La diferencia entre esta y la primera regresión es que $\hat x_i$ no está correlacionado con el término de error y se ha corregido este sesgo de selección. Hay muchos usos diferentes de esto. En principio, la regresión en dos etapas utilizada en el documento podría corregir algunos de los sesgos que se analizan en el documento.

Más información:

Este ppt (Diapositiva 20 en adelante) describe un excelente (y muy famoso) ejemplo de IV.

Estas notas también son bastante sólidos.

Esta pregunta proporciona algunos libros de texto que también son muy útiles. Mi favorito es "Mostly Harmless Econometrics" de Angrist y Pischkes (escrito por el tipo que hizo el famoso ejemplo anterior) y "Econometric Analysis of Cross Section and Panel Data" de Wooldridge. Cabe señalar que ambos son libros de nivel de posgrado.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X