Hay valiosos recursos en el léxico de los tipos de variables, rápidamente accesibles, como aquí. Sin embargo, algunos de estos conceptos aparecen lado a lado con la suficiente frecuencia para hacerlos confuso.
Por ejemplo, Wikipedia menciona dos causas para la endogeneidad:
- Incontrolada factor de confusión (sesgo de variable omitida);
- Lazos de causalidad entre las variables dependientes e independientes (simultaneidad).
Esto está en línea con la Enciclopedia de Economía de la Salud la formulación de
$$ $ Y=X_1ß_1+X_2ß_2+C_oß_o+C_uß_u+\varepsilon\tag 1$$
donde la generación de modelo en la ecuación es opaco para el investigador porque de $C_u$ - un inobservable variable de confusión que, a diferencia de los $C_o,$ puede ser sospechado, pero no se puede controlar, lo que en un defectuoso $Y=X_1\beta_1+X_2ß_2+C_o\beta_o+e$ modelo. En este caso, si $X_1$ se correlacionó con $C_u,$ podríamos decir que $X_1$ es endógeno debido a la presencia de un factor de confusión no observables.
Sobre esta base, debe variables de confusión ser considerada como un tipo de variable endógena? Endogenous > Confounding
?
Pero, a continuación, en este Stata blog parece tener un diferente formulación matemática como en comparación con la confusión y la OVB. En este documento vinculado $X_1$ sería endógenos si
$$\begin{align} Y &= X_1\beta_1 + X_2\beta_2+\varepsilon\\[2ex] &\mathbb E(\varepsilon \vert X_1)\neq0\\[2ex] &\mathbb E(\varepsilon \vert X_2)=0 \end{align}$$
Es evidente que esto sólo puede ser una diferente formulación matemática de un mismo concepto en la ecuación (1): la omitido observables factor de confusión se manifiesta a través de residual de la falta de independencia de $X_1$ y $\varepsilon,$ un lugar teórico ecuación matemática desde $\varepsilon$ no se puede medir directamente, y los residuos son ortogonales al modelo de la matriz por la construcción.
De acuerdo a este blog, factores de confusión y variables endógenas son two separate issues
.
Tal vez la verdadera comprensión de las diferencias viene de la gráfica de modelos causales:
sólo se debe tener en cuenta los tres elementales causal de estructuras a partir de la cual todos los Dag puede ser construido: cadenas de $A\C\a B$ (y su contracción $A\a B$), horquillas $A\leftarrow C\a B$ e invertido de tenedores $A\C \leftarrow B.$ Convenientemente, estas estructuras corresponden exactamente a la relación de causalidad, de confusión, y endógeno de selección.
Aquí, confounder = common cause while endogenous selection = common outcome
.
Puede haber algún campo de la dependencia. De J Epidemiol Community Health 2008;62;858-861 F Imlach Gunasekara, K Carter y T Blakely:
Endógeno explicativo de la variable: Una variable explicativa en un modelo de regresión múltiple que está correlacionada con el término de error, ya sea a causa de una variable omitida, el error de medición, o la simultaneidad.
...
Cuando la endogeneidad se discute en bioestadística textos con respecto a los datos longitudinales es principalmente un factor de reversa la relación de causalidad. Un endógeno variable de exposición es un factor de predicción de el resultado al final del tiempo $t$ y es también predijo el resultado de la tiempo $t–1.$ Esto puede ser controlado mediante la adición de tiempo-lag variables en el modelo.
PREGUNTA:
Podríamos definir con precisión las diferencias y la superposición de las características de estos dos tipos de variables, con énfasis en una estructura jerárquica? Podemos formular sus respectivas definiciones en un preciso (lineal) ecuación algebraica, o a través dirigidos acíclicos gráficos (Dag)?