Qué es la estructura del error
Una buena explicación sobre lo que es la estructura de errores, ya se ofrece en esta respuesta de validación cruzada . En resumen:
En este sentido, la estructura del error se refiere al "elemento de aleatoriedad" de su modelo. Por ejemplo, en la regresión por mínimos cuadrados, solemos suponer que el término de error del modelo (es decir, los residuos) sigue una distribución normal
La estructura del error es básicamente el término que engloba todo el comportamiento del término de error.
Por qué el submuestreo es problemático
Ahora, para responder al resto de la pregunta, utilicemos un ejemplo arbitrario en el que haya una muestra de países desarrollados y en desarrollo.
Si se parte de la base de que tanto los países desarrollados como los que están en vías de desarrollo tienen la misma estructura de error, no tiene mucho sentido hacer una submuestra. Por ejemplo, para simplificar, supongamos una muestra en la que tenemos 10 países desarrollados y 20 países en desarrollo con 15 años de observaciones cada uno (lo que significa que tenemos 450 observaciones) y si su modelo es así
$$y_{it} = \alpha_i + \beta_1 T_{it} + \beta_2 X_{it} + \epsilon_{it} \tag{1}$$
donde $y$ es el resultado, $T$ algún tratamiento, $X$ control, y $\epsilon$ término de error.
Ahora, si asumimos que el término de error tiene la misma estructura general, tiene sentido examinar el efecto extra en los países desarrollados en la muestra completa con la variable de interacción entre el tratamiento y la dummy del país desarrollado ( $T \cdot D$ ).
$$y_{it} = \alpha_i + \beta_1 T_{it} + \beta_2 X_{it} + \beta_3 T_{it} \cdot D_i + \epsilon_{it} \tag{2}$$
Esto nos dirá exactamente cómo difiere el efecto entre los países desarrollados y los países en desarrollo, ya que $\beta_3$ es el efecto extra diferente para el país desarrollado, y $\beta_1 + \beta_3$ nos da el efecto total en los países desarrollados, y todo esto lo conseguimos simplemente sacrificando 1 grado de libertad por este coeficiente extra mientras nuestro tamaño de muestra sigue siendo de 450. Es importante entender que la potencia de muchas pruebas estadísticas (como la $t$ -prueba aplicada a $\beta$ coeficientes) aumenta en el tamaño de la muestra y disminuye cuando tenemos más parámetros - véase la discusión de esto en Stock y Watson Introduction to Econometrics Ch 3 ). Esto se debe a que, en general, cuantos más grados de libertad se tengan, mejor será la potencia de la prueba estadística. Para el clásico a $t$ -Los grados de libertad de la prueba vienen dados por $n-k$ donde $n$ es el número de observaciones, $k$ número de regresores. Así, en el ejemplo anterior (1) tenemos $n-k= 450- 32 = 418$ df (32 porque tenemos 30 dummies para cada país y 2 por otros 2 regresores), en el ejemplo (2) perderíamos sólo 1 df extra debido al término de interacción por lo que tendríamos: $n-k=450-33=417$ df.
Si se subdividiera la muestra, no se obtendría ninguna información adicional y se perderían más dfs. En esta situación, tendríamos un modelo separado para los países desarrollados:
$$y_{it} = \omega_i + \gamma_1 T_{it} + \gamma_2 X_{it} + e_{it} \tag{3}$$
con 150 observaciones y 12 parámetros (sólo tenemos 10 variables ficticias de país, por lo que tenemos $150-12= 138$ df en el modelo 3, y para los países en desarrollo tenemos
$$y_{it} = \kappa_i + \lambda_1 T_{it} + \lambda_2 X_{it} + u_{it} \tag{4}$$
con 200 observaciones y 22 parámetros tenemos $200-22=178$ df. Por lo tanto, al subconjuntar la muestra no estamos ganando ninguna información nueva, ya que asintóticamente $\gamma_1 = \beta_1 + \beta_3$ y $\lambda_1 = \beta_1$ del modelo (2), pero nuestras estimaciones puntuales de $\gamma_1$ y $\lambda_1$ se estiman con menos precesión, hay más posibilidades de no poder rechazar la nula aunque la hipótesis alternativa sea cierta. Además, para comparar la diferencia entre países desarrollados y en desarrollo $\gamma_1-\lambda_1$ tendríamos que establecer una prueba adicional, y en el modelo (2) ya lo obtenemos directamente del coeficiente $\beta_3$ ya que asintóticamente $\beta_3 = \gamma_1-\lambda_1$ (así que en realidad el submuestreo es incluso un trabajo extra, siempre que se sepa cómo configurar los maniquíes de interacción).
Sin embargo, esto no quiere decir que nunca se deba hacer una submuestra. Por ejemplo, si la estructura del error es diferente, por ejemplo, si la muestra de los países desarrollados sufre de cierta endogeneidad, o si requiere más controles que la muestra de los países en vías de desarrollo debido al sesgo de las variables omitidas (que afecta a la estructura del término de error), y si no hay una buena forma de ajustar este problema en la muestra completa, crear submuestras podría ser mejor. Si puede justificar el submuestreo, puede hacerlo, pero si sólo quiere ver cómo alguna variable afecta de forma diferente a las distintas categorías, no debería optar automáticamente por el submuestreo a menos que pueda justificarlo con otros argumentos.