Esta es una pregunta muy básica, pero necesito ayuda. Imagínese que tengo un conjunto de datos para las variables y, x y z. Estoy ejecutando una regresión de variables instrumentales de tal manera que y es mi principal variable de resultado. Así que estoy tratando de estimar las siguientes regresiones.
$$ y = \beta_{0} + \beta_{1} x + e $$
$$ x= \alpha_{0} + \alpha_{1} z + u $$
Tengo N observaciones. K observaciones contienen valores para y, z y x. N-K observaciones contienen valores sólo para x y z, y los valores de y se reportan como NA. K > N - K por lo que tengo más observaciones completas que incompletas en los datos.
Mi pregunta es: ¿debo ejecutar la regresión de la primera etapa con todas las N observaciones y LUEGO ejecutar la ecuación principal con sólo K valores ajustados? ¿O debería eliminar las observaciones incompletas N - K para empezar y centrarme sólo en K observaciones completas para la primera y la segunda etapa? ¿Afectaría esto a la forma de calcular los errores estándar?
Cualquier ayuda será muy apreciada.