Esta es la pregunta estándar sobre Variables Instrumentales en modelos lineales de una sola ecuación. Dadas las premisas de tu pregunta, la única variable endógena es exercise. Para responder a esta pregunta en particular, necesitas una variable exógena, z, que cumpla dos condiciones:
- cov(z,u)=0.
- Debes haber una relación entre la variable endógena y esta variable exógena que estás proponiendo pero que no formaba parte del verdadero modelo postulado (el modelo estructural). En otras palabras, $$ exercise=\beta_0+\beta_1 age +\beta_2 weight + \beta_3 height + \beta_4 male + \beta_5 work + \phi z + \varepsilon_{exercise} $$ con $\phi\ne 0$, $\mathbb{E}\,( \varepsilon_{exercise})=0$ y ortogonal a todas tus variables explicativas (que no sean exercise) y a z.
Antes de continuar, un comentario. Por modelo estructural me refiero, siguiendo la convención de Wooldridge y Goldberger, al modelo postulado. Es decir, el modelo que establece la relación causal entre salud y tus covariables. Esta es una diferencia clave y una desacuerdo con respuestas anteriores.
Ahora, volviendo al problema en cuestión, la condición 2 es lo que en la literatura de ecuaciones simultáneas se llama la ecuación de la forma reducida, que no es más que una proyección lineal de la endógena en todas las variables exógenas, incluido z.
Ahora inserta la forma reducida en tu modelo postulado y obtendrás
$$ salud=\alpha_0 + \alpha_1 age + \alpha_2 weight + \alpha_3 height + \alpha_4 male + \alpha_5 work + \delta z + \nu $$ donde $\alpha_i = b_i + b_6\beta_i,\: \forall i \in \{1,\dots,5\}$, $\delta=b_6\phi$ y $\nu = u+b_6\varepsilon_{exercise}$. Según la definición de proyección lineal, $\nu$ no está correlacionada con todas las variables explicativas y, por lo tanto, OLS de esta última ecuación producirá estimaciones consistentes para $\alpha_i$ y $\delta$, no para los subyacentes $b_i$ en el verdadero modelo.
La identificación requiere un poco de manipulación en forma de matriz pero básicamente se reduce a la llamada condición de rango. Define $\mathbf{b}=(b_0,\dots,b_6)'$ y $\mathbf{x}=(1, age, \dots, exercise)'$ de modo que tu modelo estructural sea $salud=\mathbf{x}'\mathbf{b}+u$. Ahora define $\mathbf{z}\equiv(1,age,\dots,work,z)'$. Por condición 1 (cov(z,u)=0 de modo que E(z,u)=0), $$ \mathbb{E}(\mathbf{z}u)=0 $$ Si multiplicas ambos lados del modelo estructural por $\mathbf{z}$ y tomas esperanzas tienes $$ \mathbb{E}(\mathbf{z}\mathbf{x}')\mathbf{b}=\mathbb{E}(\mathbf{z}y) $$ La condición de rango establece que $\mathbb{E}(\mathbf{z}\mathbf{x}')$ tiene rango completo. En este ejemplo particular y dadas las condiciones en z, esto es equivalente a $rango(\mathbb{E}(\mathbf{z}\mathbf{x}')=6$. Por lo tanto tenemos 6 ecuaciones en 6 incógnitas. Por lo tanto, existe una solución única para el sistema, es decir, $\mathbf{b}$ está identificado y es igual a $[\mathbb{E}(\mathbf{z}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{z}y)$, como se deseaba.
Observaciones: La Condición 1 es útil para obtener la condición de momento pero el modelo de forma reducida con $\phi$ es crucial para la condición de rango. Ambas condiciones son habituales.
En este punto debería quedar claro por qué necesitamos esto. Por un lado, sin z, el estimador OLS del modelo real producirá estimadores inconsistentes no solo para $b_6$ sino para todos los $b_i$. Por otro lado (y de alguna manera relacionado), nuestros parámetros están identificados de manera única, por lo que estamos seguros de que estamos estimando la verdadera relación causal según se establece en nuestro verdadero modelo.
En cuanto a las pruebas, la condición 2 (z y exercise están parcialmente correlacionadas) se puede probar directamente y siempre debes reportar ese paso en contra del comentario en una respuesta anterior. Existe una enorme literatura en relación con este paso, especialmente en la literatura de instrumentos débiles.
La segunda condición no se puede probar directamente. A veces puedes recurrir a la teoría económica para justificar o proporcionar hipótesis alternativas que respalden el uso de z.