5 votos

Confusión frente a variables endógenas. ¿Cuál es su relativa posición jerárquica?

Hay valiosos recursos en el léxico de los tipos de variables, rápidamente accesibles, como aquí. Sin embargo, algunos de estos conceptos aparecen lado a lado con la suficiente frecuencia para hacerlos confuso.

Por ejemplo, Wikipedia menciona dos causas para la endogeneidad:

  1. Incontrolada factor de confusión (sesgo de variable omitida);
  2. Lazos de causalidad entre las variables dependientes e independientes (simultaneidad).

Esto está en línea con la Enciclopedia de Economía de la Salud la formulación de

$$ $ Y=X_1ß_1+X_2ß_2+C_oß_o+C_uß_u+\varepsilon\tag 1$$

donde la generación de modelo en la ecuación es opaco para el investigador porque de $C_u$ - un inobservable variable de confusión que, a diferencia de los $C_o,$ puede ser sospechado, pero no se puede controlar, lo que en un defectuoso $Y=X_1\beta_1+X_2ß_2+C_o\beta_o+e$ modelo. En este caso, si $X_1$ se correlacionó con $C_u,$ podríamos decir que $X_1$ es endógeno debido a la presencia de un factor de confusión no observables.

Sobre esta base, debe variables de confusión ser considerada como un tipo de variable endógena? Endogenous > Confounding?


Pero, a continuación, en este Stata blog parece tener un diferente formulación matemática como en comparación con la confusión y la OVB. En este documento vinculado $X_1$ sería endógenos si

$$\begin{align} Y &= X_1\beta_1 + X_2\beta_2+\varepsilon\\[2ex] &\mathbb E(\varepsilon \vert X_1)\neq0\\[2ex] &\mathbb E(\varepsilon \vert X_2)=0 \end{align}$$

Es evidente que esto sólo puede ser una diferente formulación matemática de un mismo concepto en la ecuación (1): la omitido observables factor de confusión se manifiesta a través de residual de la falta de independencia de $X_1$ y $\varepsilon,$ un lugar teórico ecuación matemática desde $\varepsilon$ no se puede medir directamente, y los residuos son ortogonales al modelo de la matriz por la construcción.

De acuerdo a este blog, factores de confusión y variables endógenas son two separate issues.


Tal vez la verdadera comprensión de las diferencias viene de la gráfica de modelos causales:

sólo se debe tener en cuenta los tres elementales causal de estructuras a partir de la cual todos los Dag puede ser construido: cadenas de $A\C\a B$ (y su contracción $A\a B$), horquillas $A\leftarrow C\a B$ e invertido de tenedores $A\C \leftarrow B.$ Convenientemente, estas estructuras corresponden exactamente a la relación de causalidad, de confusión, y endógeno de selección.

Aquí, confounder = common cause while endogenous selection = common outcome.


Puede haber algún campo de la dependencia. De J Epidemiol Community Health 2008;62;858-861 F Imlach Gunasekara, K Carter y T Blakely:

Endógeno explicativo de la variable: Una variable explicativa en un modelo de regresión múltiple que está correlacionada con el término de error, ya sea a causa de una variable omitida, el error de medición, o la simultaneidad.

...

Cuando la endogeneidad se discute en bioestadística textos con respecto a los datos longitudinales es principalmente un factor de reversa la relación de causalidad. Un endógeno variable de exposición es un factor de predicción de el resultado al final del tiempo $t$ y es también predijo el resultado de la tiempo $t–1.$ Esto puede ser controlado mediante la adición de tiempo-lag variables en el modelo.


PREGUNTA:

Podríamos definir con precisión las diferencias y la superposición de las características de estos dos tipos de variables, con énfasis en una estructura jerárquica? Podemos formular sus respectivas definiciones en un preciso (lineal) ecuación algebraica, o a través dirigidos acíclicos gráficos (Dag)?

3voto

jack.spicer Puntos 301

La pregunta no es totalmente clara, pero voy a intentar dar alguna orientación.

Para responder a su primera pregunta, las variables de confusión no son un tipo de variable endógena. No se observa ni estamos interesados en las variables de confusión, lo que significa que no son variables endógenas en nuestro modelo.

Más tarde dar la definición correcta de una variable endógena "de Una variable explicativa en un modelo de regresión múltiple que está correlacionada con el término de error". Por lo tanto, puede haber varias razones por las que una variable podría ser endógena, pero todos ellos tienen que ver con la correlación con el término de error.

Una variable endógena es uno, que no puede tener una interpretación causal en un modelo de regresión. Cuando algo lleva a una variable endógena, llamamos a esto una fuente de endogeneidad.

Como usted menciona, una importante fuente de endogeneidad son variables omitidas. Si se omite una variable, que afecta a la variable de resultado, entonces la variable omitida es capturado por el término de error en nuestro modelo. Si la variable omitida es correlacionada con la variable explicativa, luego de que la variable explicativa se vuelve endógena, porque ahora está correlacionada con el término de error.

Otras fuentes importantes de endogeneidad se causalidad inversa y la simultaneidad, como usted menciona. Por causalidad inversa, tenemos que en la exposición de variabe se supone que influyen en la variable de resultado, pero si la variable de resultado también afecta a la variable explicativa, a continuación, en nuestro modelo de regresión, este último canal es necesariamente capturado por el término de error. Esto es debido a que el canal que determina la relación entre el resultado y la variable explicativa, pero no podemos captar en cualquier variable. Poner la variable explicativa en el lado izquierdo en su lugar y el uso de la variable de resultado como una variable explicativa no ayuda tampoco, porque entonces tenemos el mismo problema. A continuación, la variable explicativa está correlacionada con el término de error, lo que hace que la variable explicativa endógena.

Así la superposición de las características son que todas las fuentes de endogeneidad madre de una correlación de una variable explicativa con el término de error. Las distinciones son la fuente de esta correlación y, en consecuencia, de cómo tratar con él. Por ejemplo, el sesgo de variable omitida puede ser tratado mediante la observación y la adición de la variable omitida a la regresión. Esta estrategia no funciona cuando se trata a la dirección de causalidad inversa.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X