Hay valiosos recursos en el léxico de los tipos de variables, rápidamente accesibles, como aquí. Sin embargo, algunos de estos conceptos aparecen lado a lado con la suficiente frecuencia para hacerlos confuso.
Por ejemplo, Wikipedia menciona dos causas para la endogeneidad:
- Incontrolada factor de confusión (sesgo de variable omitida);
- Lazos de causalidad entre las variables dependientes e independientes (simultaneidad).
Esto está en línea con la Enciclopedia de Economía de la Salud la formulación de
$ Y=X_1ß_1+X_2ß_2+C_oß_o+C_uß_u+\varepsilon\tag 1
donde la generación de modelo en la ecuación es opaco para el investigador porque de C_u - un inobservable variable de confusión que, a diferencia de los C_o, puede ser sospechado, pero no se puede controlar, lo que en un defectuoso Y=X_1\beta_1+X_2ß_2+C_o\beta_o+e modelo. En este caso, si X_1 se correlacionó con C_u, podríamos decir que X_1 es endógeno debido a la presencia de un factor de confusión no observables.
Sobre esta base, debe variables de confusión ser considerada como un tipo de variable endógena? Endogenous > Confounding
?
Pero, a continuación, en este Stata blog parece tener un diferente formulación matemática como en comparación con la confusión y la OVB. En este documento vinculado X_1 sería endógenos si
\begin{align} Y &= X_1\beta_1 + X_2\beta_2+\varepsilon\\[2ex] &\mathbb E(\varepsilon \vert X_1)\neq0\\[2ex] &\mathbb E(\varepsilon \vert X_2)=0 \end{align}
Es evidente que esto sólo puede ser una diferente formulación matemática de un mismo concepto en la ecuación (1): la omitido observables factor de confusión se manifiesta a través de residual de la falta de independencia de X_1 y \varepsilon, un lugar teórico ecuación matemática desde \varepsilon no se puede medir directamente, y los residuos son ortogonales al modelo de la matriz por la construcción.
De acuerdo a este blog, factores de confusión y variables endógenas son two separate issues
.
Tal vez la verdadera comprensión de las diferencias viene de la gráfica de modelos causales:
sólo se debe tener en cuenta los tres elementales causal de estructuras a partir de la cual todos los Dag puede ser construido: cadenas de A\C\a B (y su contracción A\a B), horquillas A\leftarrow C\a B e invertido de tenedores A\C \leftarrow B. Convenientemente, estas estructuras corresponden exactamente a la relación de causalidad, de confusión, y endógeno de selección.
Aquí, confounder = common cause while endogenous selection = common outcome
.
Puede haber algún campo de la dependencia. De J Epidemiol Community Health 2008;62;858-861 F Imlach Gunasekara, K Carter y T Blakely:
Endógeno explicativo de la variable: Una variable explicativa en un modelo de regresión múltiple que está correlacionada con el término de error, ya sea a causa de una variable omitida, el error de medición, o la simultaneidad.
...
Cuando la endogeneidad se discute en bioestadística textos con respecto a los datos longitudinales es principalmente un factor de reversa la relación de causalidad. Un endógeno variable de exposición es un factor de predicción de el resultado al final del tiempo t y es también predijo el resultado de la tiempo t–1. Esto puede ser controlado mediante la adición de tiempo-lag variables en el modelo.
PREGUNTA:
Podríamos definir con precisión las diferencias y la superposición de las características de estos dos tipos de variables, con énfasis en una estructura jerárquica? Podemos formular sus respectivas definiciones en un preciso (lineal) ecuación algebraica, o a través dirigidos acíclicos gráficos (Dag)?