Esta es la pregunta estándar sobre Variables Instrumentales en modelos lineales de una sola ecuación. Dadas las premisas de tu pregunta, la única variable endógena es exercise. Para responder a esta pregunta en particular, necesitas una variable exógena, z, que cumpla dos condiciones:
- cov(z,u)=0.
- Debes haber una relación entre la variable endógena y esta variable exógena que estás proponiendo pero que no formaba parte del verdadero modelo postulado (el modelo estructural). En otras palabras, exercise=β0+β1age+β2weight+β3height+β4male+β5work+ϕz+εexercise con ϕ≠0, E(εexercise)=0 y ortogonal a todas tus variables explicativas (que no sean exercise) y a z.
Antes de continuar, un comentario. Por modelo estructural me refiero, siguiendo la convención de Wooldridge y Goldberger, al modelo postulado. Es decir, el modelo que establece la relación causal entre salud y tus covariables. Esta es una diferencia clave y una desacuerdo con respuestas anteriores.
Ahora, volviendo al problema en cuestión, la condición 2 es lo que en la literatura de ecuaciones simultáneas se llama la ecuación de la forma reducida, que no es más que una proyección lineal de la endógena en todas las variables exógenas, incluido z.
Ahora inserta la forma reducida en tu modelo postulado y obtendrás
salud=α0+α1age+α2weight+α3height+α4male+α5work+δz+ν donde αi=bi+b6βi,∀i∈{1,…,5}, δ=b6ϕ y ν=u+b6εexercise. Según la definición de proyección lineal, ν no está correlacionada con todas las variables explicativas y, por lo tanto, OLS de esta última ecuación producirá estimaciones consistentes para αi y δ, no para los subyacentes bi en el verdadero modelo.
La identificación requiere un poco de manipulación en forma de matriz pero básicamente se reduce a la llamada condición de rango. Define b=(b0,…,b6)′ y x=(1,age,…,exercise)′ de modo que tu modelo estructural sea salud=x′b+u. Ahora define z≡(1,age,…,work,z)′. Por condición 1 (cov(z,u)=0 de modo que E(z,u)=0), E(zu)=0 Si multiplicas ambos lados del modelo estructural por z y tomas esperanzas tienes E(zx′)b=E(zy) La condición de rango establece que E(zx′) tiene rango completo. En este ejemplo particular y dadas las condiciones en z, esto es equivalente a rango(E(zx′)=6. Por lo tanto tenemos 6 ecuaciones en 6 incógnitas. Por lo tanto, existe una solución única para el sistema, es decir, b está identificado y es igual a [E(zx′)]−1E(zy), como se deseaba.
Observaciones: La Condición 1 es útil para obtener la condición de momento pero el modelo de forma reducida con ϕ es crucial para la condición de rango. Ambas condiciones son habituales.
En este punto debería quedar claro por qué necesitamos esto. Por un lado, sin z, el estimador OLS del modelo real producirá estimadores inconsistentes no solo para b6 sino para todos los bi. Por otro lado (y de alguna manera relacionado), nuestros parámetros están identificados de manera única, por lo que estamos seguros de que estamos estimando la verdadera relación causal según se establece en nuestro verdadero modelo.
En cuanto a las pruebas, la condición 2 (z y exercise están parcialmente correlacionadas) se puede probar directamente y siempre debes reportar ese paso en contra del comentario en una respuesta anterior. Existe una enorme literatura en relación con este paso, especialmente en la literatura de instrumentos débiles.
La segunda condición no se puede probar directamente. A veces puedes recurrir a la teoría económica para justificar o proporcionar hipótesis alternativas que respalden el uso de z.