La explicación intuitiva podría ayudar.
(i) $E[u]=0$ vs $E[u|x]=0$ : Imagina que divides la población por el valor de $x$ para que cada porción de población tenga el mismo valor de $x$ en él. A continuación, puede obtener la media de $u$ para cada rebanada. " $E[u|x]=0$ ", que es una notación abreviada de " $E[u|x=c]=0$ para (casi) todo $c$ ", significa que la media de $u$ en cada partición es cero. También se puede obtener la media de $u$ para toda la población. " $E[u]=0$ " significa que la media de $u$ para toda la población es cero.
Por ejemplo, dejemos que $x$ ser años de educación. $E[u|x]=0$ significa que la media de $u$ para los que tienen 9 años de educación es cero, la media de $u$ para los que tienen 10 años de educación es cero, etc., mientras que $E[u]=0$ significa que la media de $u$ para toda la población es cero.
Usted ve que " $E[u|x]=0$ " implica una especie de " $u$ al no estar relacionado con $x$ ", y se llama independencia media . Por otro lado, $E[u]=0$ no dice nada sobre la relación entre $u$ y $x$ . $E[u]=0$ tiene sentido sin $x$ que nunca estuvo involucrado, mientras que $E[u|x]=0$ sólo tiene sentido en relación con $x$ .
(ii) $var(u)=\sigma^2$ vs $var(u|x)=\sigma^2$ : Imagina que divides la población por el valor de $x$ . Puede obtener la varianza de $u$ para cada rebanada. ' $var(u|x)=\sigma^2$ ' significa la varianza de $u$ para cada partición es $\sigma^2$ . Aquí, el punto clave es que $\sigma^2$ es una constante y no interviene en $x$ . Significa que todas las rebanadas tienen la misma varianza. $var(u|x)=\sigma^2$ es muy informativo. A continuación, también puede obtener la varianza de $u$ para toda la población, y $var(u)=\sigma^2$ significa que esa varianza (de $u$ para toda la población) se denota $\sigma^2$ , donde $\sigma^2$ es sólo una notación.
$var(u|x)$ puede depender de $x$ (heteroskedasticidad), pero es totalmente absurdo cuestionar si $var(u)$ depende de $x$ porque $var(u)$ no tiene nada que ver con $x$ desde el principio (a no ser que te refieras a $var(u|x)$ por $var(u)$ ).
(iii) $cov(x,u)=0$ : Esto sólo significa que $cov(x,u)=0$ , donde $cov(a,b)$ se define como $E[(a-Ea)(b-Eb)]$ . En su caso, $cov(x,u)=E[xu]$ porque $E[u]=0$ . Si necesita intuir el significado de $cov(x,u)=0$ Imagina que tienes $(x,u)$ representados en el plano XY para toda la población, con $x$ en el eje horizontal y $u$ en el eje vertical. Dibuja una bonita línea recta (donde ser recto es importante). $cov(x,u)=0$ significa que la línea recta es horizontal. Dice algo sobre $u$ y $x$ no estar relacionado, y cuando ocurre, decimos que " $x$ y $u$ no están correlacionados".
$E[u|x]=0$ implica $cov(x,u)=0$ pero no a la inversa, por lo que $cov(x,u)$ es más débil que $E[u|x]=0$ . Puedes demostrarlo utilizando la ley de las expectativas iteradas: $E[xu] = E[xE(u|x)] = E[x\cdot 0]=E[0]=0$ . Para un contraejemplo para el caso contrario, supongamos que $x\sim N(0,1)$ y $u=x^2-1$ . Entonces $E[u|x]=x^2-1$ que no es cero, excepto $x=\pm 1$ pero $cov(x,u) = E[x(x^2-1)] = E[x^3]-E[x]=0-0=0$ .
(iv) ¿Cuál es la diferencia entre $cov(y,x)$ y $cov(u,x)$ ? Si $y=\beta_0 + \beta_1 x +u$ , $cov(y,x) = cov(\beta_0+\beta_1 x+u,x) = \beta_1 cov(x,x) + cov(u,x)$ , donde $cov(x,x) = var(x)$ por definición. Esa es la diferencia.
ADD:
Acabo de notar la confusión del OP sobre $cov(x_i,u_i)$ y $cov(x,u)$ . Primero, $cov(x,u)$ puede entenderse intuitivamente como la propiedad de la población explicada anteriormente en (iii). $cov(x,u)$ es sobre la población, y no dice nada sobre la muestra. La notación $cov(x_i,u_i)$ es, por otra parte, sobre la muestra, y debería significar, de hecho, algo así como " $cov(x_i,u_i)$ , $i=1,\ldots,n$ ", es decir, $cov(x_1,u_1)$ , $cov(x_2,u_2)$ ..., y $cov(x_n,u_n)$ . Son todos iguales si la primera persona, la segunda persona, ..., la $n$ son extracciones aleatorias independientes de la misma población (que es el significado de $iid$ ). Si se extraen de poblaciones diferentes, $cov(x_i, u_i)$ puede ser diferente para diferentes $i$ pero estoy bastante seguro de que estás asumiendo $iid$ .
Ahora, ¿qué es $cov(x_1,u_1)$ ¿entonces? Esta es la parte difícil. Para entender su significado, debes comprender que $(x_1,u_1)$ es un vector aleatorio cuyo valor puede cambiar al repetir el muestreo en sus experimentos de pensamiento. (Esto te seguirá confundiendo hasta que entiendas este punto.) La "primera persona" de la muestra seguirá cambiando cuando repitas dibujar la muestra una y otra vez en tu mente, y por lo tanto el $(x_1,u_1)$ seguirá cambiando a lo largo de las muestras repetidas. Así, al repetir el muestreo indefinidamente, los valores de $x_1$ y $u_1$ cambiará y hará una distribución (conjunta). $cov(x_1,u_1)$ es la covarianza de esa distribución conjunta. Del mismo modo, se puede entender $cov(x_2,u_2)$ como la covarianza de $x_2$ y $u_2$ sobre las muestras repetidas. Si se sigue extrayendo la primera observación de forma independiente de la misma población como $cov(x,u)$ entonces $cov(x_1,u_1) = cov(x,u)$ .
Así que cuando hablamos de la propiedad de la población, utilizamos la notación $cov(x,u)$ . Cuando hablamos de la covarianza de $x_1$ y $u_1$ (sobre muestras repetidas), utilizamos la notación $cov(x_1,u_1)$ . La notación $cov(x_i,u_i)$ es una notación abreviada (descuidada) de $cov(x_1,u_1), \ldots, cov(x_n,u_n)$ . " $cov(x_i,u_i)$ " no tiene mucho sentido hasta que se dice lo que $i$ es, como en " $cov(x_i,u_i)$ es cero para cada $i=1,\ldots,n$ ", o " $cov(x_i,u_i)$ es distinto de cero para cada $i=1,\ldots,n$ pero son los mismos para todos $i$ ." La declaración " $cov(x_i,u_i)=0$ " suele ser una escritura perezosa (o torpe) de " $cov(x_i,u_i)=0$ para todos $i=1,\ldots,n$ ", que significa $cov(x_1,u_1)=0$ , $cov(x_2,u_2)=0$ , ..., $cov(x_n,u_n)=0$ .
1 votos
¿No es $E[u] = 0$ en lugar de $\sigma^2$ ?
3 votos
¿No debería ser la varianza $V[u]=\sigma^2$ ?
0 votos
@AdamBailey Viendo que el PO menciona la homoscedasticidad probablemente tengas razón. Lamentablemente sólo vi tu comentario después de haber terminado mi larga respuesta.