Supongamos que para cada observación $i = 1,\ldots, N$ tenemos $M$ ecuaciones: $$ y_{i,j} = x_{i,j}\beta_j + \varepsilon_{i,j} $$ Donde $i = 1,\ldots, N$ enumera los individuos y y $j = 1,\ldots, M$ enumera las ecuaciones. aquí $x$ es de tamaño $1 \times k_j$ y $\beta_j$ es de tamaño $k_j \times 1$ y $k_j$ es el número de covariables para la regresión $j$ . Apilamiento sobre todo $i = 1,\ldots N$ obtenemos $M$ ecuaciones: $$ y_j = X_j \beta_j + \varepsilon_j $$ donde ahora $X_j$ es de tamaño $N \times k_j$ . Para simplificar, supongamos que $X_j$ no son estocásticos. A continuación, supongamos que para todo $i = 1,\ldots, N$ y $j = 1,\ldots, M$ : $$ \begin{align*} &\mathbb{E}(\varepsilon_{i,j}) = 0,\\ &\mathbb{E}(\varepsilon_{i,j}^2) = \sigma_{jj} \end{align*} $$ Para la covarianza entre ecuaciones, dejemos para todo $i = 1,\ldots, N$ y $j,\ell = 1,\ldots, M$ : $$ \mathbb{E}(\varepsilon_{i,j} \varepsilon_{i,\ell}) = \sigma_{j,\ell} $$ mientras que para todos $j,\ell = 1,\ldots, M$ y $i,i' = 1,\ldots, N$ con $i \ne i'$ : $$ \mathbb{E}(\varepsilon_{i,j}, \varepsilon_{i',k}) = 0 $$ Esto significa que los errores del mismo individuo pueden estar correlacionados entre las ecuaciones, mientras que los errores de los diferentes individuos no están correlacionados.
Esto se puede expresar de forma más compacta como $$ cov(\varepsilon_j, \varepsilon_{\ell}) = \sigma_{j,\ell}I_N $$ Ahora, apilemos las distintas ecuaciones, una sobre otra: $$ y = Z\beta + \varepsilon, $$ donde: $$ y = \begin{bmatrix} y_1\\y_2\\ \vdots\\y_M\end{bmatrix}, \varepsilon = \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \varepsilon_M \end{bmatrix},\\ Z = \begin{bmatrix} X_1 & 0 & \ldots & 0\\ 0 & X_2 & \ldots & 0,\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \ldots & X_M \end{bmatrix}, \beta = \begin{bmatrix} \beta_1\\ \vdots \\ \beta_M\end{bmatrix} $$ La matriz de varianza-covarianza de $\varepsilon$ tiene la forma: $$ \mathbb{E}(\varepsilon \varepsilon') = V = \begin{bmatrix} \sigma_{11} I_N & \sigma_{12}I_N & \ldots & \sigma_{1M} I_N\\ \sigma_{21} I_N & \sigma_{22} I_N & \ldots & \sigma_{2N} I_N\\ \ldots & \ldots & \ddots & \vdots\\ \sigma_{M1} I_N & \ldots & \ldots & \sigma_{MM}I_N \end{bmatrix} = \Sigma \otimes I_N $$ donde $\otimes$ es el producto de Kronecker y: $$ \Sigma = \begin{bmatrix}\sigma_{11} & \sigma_{12} & \ldots & \sigma_{1M}\\ \sigma_{21} & \sigma_{22} & \ldots & \sigma_{2M}\\ \vdots & \vdots & \ddots & \vdots\\ \sigma_{M1} & \sigma_{M2} & \ldots & \sigma_{MM} \end{bmatrix} $$ $\Sigma$ da la matriz de covarianza de los errores para un individuo fijo.
Para el producto de Kronecker, tenemos las reglas: $(A \otimes B)^{-1} = A^{-1} \otimes B^{-1}$ y $(A \otimes B)(C \otimes D) = AC \otimes BD$ y $(A \otimes B)' = A' \otimes B'$ .
Dejemos que $\hat \Sigma$ sea la estimación de $\Sigma$ a partir de una primera estimación OLS de $y_j$ en $X_j$ y que $\hat V = \hat \Sigma \otimes I_N$ . Entonces el estimador GLS factible viene dado por: $$ \begin{align*} \hat \beta &= (Z' \hat V^{-1} Z)^{-1} Z' \hat V^{-1} y,\\ &=(Z'(\hat \Sigma \otimes I_N)^{-1}Z)^{-1}Z'(\hat \Sigma \otimes I_N)^{-1}y,\\ &= (Z'(\hat \Sigma^{-1}\otimes I_N)Z)^{-1}Z'(\hat \Sigma^{-1}\otimes I_N)y,\\ &= \beta + (Z'(\hat \Sigma^{-1}\otimes I_n)Z)^{-1}Z'y \end{align*} $$
Ahora, supongamos que todos los $X_i$ son idénticos, digamos $X$ entonces $Z = I_M \otimes X$ y podemos simplificar aún más: $$ \begin{align*} \hat \beta &= (Z'(\hat \Sigma^{-1}\otimes I_N)Z)^{-1}Z'(\hat \Sigma^{-1}\otimes I_N)y,\\ &= ((I_M \otimes X)'(\hat \Sigma^{-1}\otimes I_N)(I_M \otimes X))^{-1}(I_M \otimes X)'(\hat \Sigma^{-1}\otimes I_N)y,\\ &= ((I_M \hat \Sigma^{-1}\otimes X'I_N)(I_M \otimes X))^{-1}(I_M \hat \Sigma^{-1} \otimes X' I_N)y,\\ &= (\hat \Sigma^{-1} \otimes X'X)^{-1}(\hat \Sigma^{-1}\otimes X')y,\\ &= (\hat \Sigma \otimes (X'X)^{-1})(\hat \Sigma^{-1}\otimes X')y,\\ &= (\hat \Sigma\hat \Sigma^{-1} \otimes (X'X)^{-1}X')y\\ &= (I_M \otimes (X'X)^{-1} X')y \end{align*} $$ Observe que $\hat \Sigma$ desapareció de esta ecuación. La última ecuación se puede escribir de la siguiente manera: $$ \hat \beta = \begin{bmatrix} (X'X)^{-1}X'y_1\\ (X'X)^{-1} X'y_2\\ \vdots\\ (X'X)^{-1}X' y_1 \end{bmatrix} = \beta + \begin{bmatrix}(X'X)^{-1}X'\varepsilon_1,\\ (X'X)^{-1}X'\varepsilon_2\\\vdots \\ (X'X)^{-1}X'\varepsilon_M\end{bmatrix} $$ Por tanto, las estimaciones GLS factibles son idénticas a las estimaciones OLS de una estimación ecuación por ecuación. Obsérvese que esto también significa que los residuos $\hat \varepsilon_j$ serán idénticos a los residuos de una estimación OLS.
Ahora para estimar la matriz de covarianza de la varianza, tomamos el producto $(\hat \beta - \beta)(\hat \beta - \beta)'$ que da una matriz con entradas: $$ \begin{align*} (\hat \beta_{j} - \beta_j)(\hat \beta_j - \beta_j)' &= [(X'X)^{-1}X' \varepsilon_j][(X'X)^{-1}X'\varepsilon_j]',\\ &= (X'X)^{-1}X'\varepsilon_j \varepsilon_j'X(X'X)^{-1} \end{align*} $$ Entonces para la ecuación $j$ tenemos el matiz de covarianza de la varianza: $$ V(\hat \beta_j) = \mathbb{E}((\hat \beta_j - \beta_j)(\hat \beta_j - \beta_j)) = \sigma_{jj}\left(X'X\right)^{-1}, $$
Como $\sigma_{jj}$ no se conoce, se suele estimar mediante $\hat \sigma_{jj} = \frac{1}{N}\sum_i \hat \varepsilon_{i,j}^2$ donde $\hat \varepsilon_{i,j}$ son los residuos del estimador GLS factible. Sin embargo, en este caso, serán idénticos a los residuos de un estimador OLS (ya que los estimadores $\hat \beta$ son idénticos). Por ello, las estimaciones de las varianzas de $\hat \beta$ para el SUR serán idénticas a las estimaciones de la varianza de las estimaciones OLS (ecuación por ecuación).