2 votos

¿Qué debemos hacer si la submuestra tiene resultados opuestos a los generales?

En mi estudio de replicación, examino si una ley (una ley aplicada de forma escalonada por diferentes países) tiene un impacto en los equivalentes de efectivo de las empresas. El resultado que resulta para toda la muestra es que los equivalentes de efectivo de las empresas disminuir después de esta ley.

Sin embargo, cuando subestimo los datos por países desarrollados y en desarrollo, el resultado es curioso. Muestra que en los países desarrollados, los equivalentes de efectivo aumentar mientras que en los países en desarrollo, los equivalentes de efectivo disminuyen.

¿Has enfrentado el mismo problema antes, lo que normalmente se hace para resolver estas cosas. Mi amigo mayor me dijo que es una especie de paradoja, es mejor que ignoremos este tipo de submuestra. Su argumento es que la submuestra debe presentar la misma dirección que la muestra completa.

He controlado los efectos fijos de grupo y de periodo y algunas covariables relevantes

Actualización: En beneficio de los lectores, les recomiendo que lean todas las respuestas y comentarios porque todos son comentarios y respuestas valiosas.

1 votos

Ha cumplido con el es.wikipedia.org/wiki/Simpson%27s_paradox . Tal vez le interese esta respuesta stats.stackexchange.com/questions/185047/ en las estadísticas SE.

7voto

Mythokia Puntos 129

Esto parece un caso de La paradoja de Simpson . ¿Ha controlado los efectos fijos? También es posible que haya heterogeneidad: puede haber resultados diferentes en los países en desarrollo y en los desarrollados.

En general, no es prudente ignorar algo interesante en los datos, pero me remito al asesor que está familiarizado con el área. Puede tratarse de un fenómeno conocido que ya no interesa a la gente del ámbito.

0 votos

En realidad, controlé los efectos fijos de grupo y de periodo y algunas covariables relevantes. En mi opinión, no creo que esté relacionado con la Paradoja de Simpson, ya que ésta se produce cuando el signo cambia al añadir nuevas covariables. Pero en este caso, una submuestra tiene el signo opuesto al resultado de toda la muestra.

4 votos

@BeautifulMindset no, esto podría ser la paradoja de los Simpsons, aquí el control adicional que se omite sería la variable ficticia de ser un país en desarrollo, por supuesto dicha variable ficticia chocaría con los efectos fijos, pero como recomendó Grada puedes intentar hacer una interacción tratamiento*desarrollo ficticia que funcionará incluso con efectos fijos, o puedes simplemente intentar usar efectos aleatorios (si es aplicable) y luego simplemente añadir la variable ficticia

1 votos

@1muflon1 , entonces quieres decir que, normalmente, mi regresión es : y= post * tratar + efecto fijo de la empresa + efecto fijo del año + término de error . Ahora, crearé una variable llamada desarrollado igual a 1 esta observación pertenece a los países desarrollados. Y si quiere decir, ahora, que mi ecuación de regresión es: y= post * tratar * desarrollado + efecto fijo de la empresa + efecto fijo del año + término de error

6voto

tdm Puntos 146

tldr : Como también indicaron las otras dos respuestas, no hay necesariamente un problema con sus resultados. Podría ser el caso de que los dos subgrupos tengan diferentes distribuciones de las covariables. Otra posibilidad es que los efectos de la ley dentro del grupo sean diferentes de los efectos entre grupos.

Regresiones conjuntas y separadas

Consideremos dos grupos indexados por 0 y 1. Supongamos que hay $k$ covariables. La regresión sobre la submuestra completa puede escribirse como $$ y = \underbrace{X}_{n \times k} \underbrace{\beta}_{k \times 1} + \varepsilon $$ El valor del estimador de $\beta$ está dada por: $$ \hat \beta = (X'X)^{-1} X'y $$ Al considerar la primera submuestra, podemos condicionar el grupo $0$ : $$ y_0 = X_0\beta_0 + \varepsilon_0 $$ El valor del estimador de $\beta_0$ está dada por: $$ \hat \beta_0 = (X_0'X_0)^{-1}X_0'y_0 $$ Asimismo, en la segunda submuestra, tenemos: $$ y_1 = X_1 \beta_1 + \varepsilon_1 $$ y: $$ \hat \beta_1 = (X_1'X_1)^{-1}X_1'y_1 $$ Las estimaciones $\hat \beta, \hat \beta_0$ y $\hat \beta_1$ están relacionados de la siguiente manera, $$ \begin{align*} \hat \beta &= (X'X)^{-1} X'y,\\ &= (X'X)^{-1} X_0'y_0 + (X'X))^{-1}X_1'y_1,\\ &= W_0 \hat \beta_0 + W_1 \hat \beta_1, \end{align*} $$ donde $$ W_1 = \underbrace{(X'X)^{-1} X_0'X_0}_{k \times k},\\ W_2 = \underbrace{(X'X)^{-1} (X_1'X_1)}_{k \times k}. $$ Se puede comprobar que $X'X = X_0'X_0 + X_1'X_1$ por lo que vemos que $W_1 + W_2 = I$ . Esto significa que los coeficientes de la regresión agrupada son sumas ponderadas de los coeficientes de las regresiones de las submuestras. Sin embargo, hay que tener en cuenta que las ponderaciones no deben ser necesariamente no negativas. Además, como $W_1$ y $W_2$ son de dimensión $k \times k$ cada coeficiente en $\hat \beta$ es (potencialmente) una función de todo los coeficientes en $\hat \beta_0$ y $\hat \beta_1$ .

Una excepción es cuando la distribución de $X_0$ y $X_1$ son idénticos. Intuitivamente, esto corresponde a la noción de que $X$ se distribuye independientemente de la pertenencia al grupo. En este caso, $X_0'X_0 \approx X_1'X_1$ Así que $W_1$ y $W_2$ son matrices diagonales que tienen en las diagonales los tamaños de muestra relativos de los dos subgrupos. En este caso, cada coeficiente de $\hat \beta$ es entonces una media ponderada del coeficiente correspondiente en $\hat \beta_1$ y $\hat \beta_2$ .

Intuición

Para ver la intuición que hay detrás del resultado anterior, considere la siguiente imagen. Hay 6 puntos de datos divididos en dos grupos: los puntos verdes y azules. Las regresiones dentro del grupo (líneas rojas) dan una pendiente negativa. Sin embargo, si ejecutamos la regresión sobre toda la muestra, obtenemos una pendiente positiva (línea púrpura). Esto se debe a que el segundo grupo tiene (de media) valores más altos de $x$ y valores más altos de $y$ que anulan la asociación negativa dentro del grupo.

intuition

Como ejemplo, considere la asociación entre los salarios de las empresas y el empleo y suponga que tiene una muestra de diferentes sectores. Es posible que dentro de cada sector haya una asociación negativa (ya que los salarios más altos pueden dar lugar a menos beneficios). Sin embargo, también podría darse el caso de que entre los sectores existiera una relación positiva, ya que los sectores más rentables pagan salarios más altos.

Su caso

En su caso, tiene efectos fijos de grupo para la regresión conjunta. Poner efectos fijos conjuntos es lo mismo que restar a ambos $y$ y $L$ (la variable de la ley) la media dentro del grupo de estas variables. Así, para estas variables normalizadas, digamos $\bar y$ y $\bar L$ , se tiene la regresión conjunta: $$ \bar y = \beta \bar L + \varepsilon $$ y las regresiones específicas de los grupos (sin intercepción, ya que las variables están desprovistas de media): $$ \bar y_0 = \beta_0 \bar L_0 + \varepsilon_0,\\ \bar y_1 = \beta_1 \bar L_1 + \varepsilon_1 $$ Las estimaciones vienen dadas por: $$ \begin{align*} &\hat \beta = \frac{\bar L'\bar y}{\bar L'\bar L},\\ &\hat \beta_0 = \frac{\bar L_0' \bar y_0}{\bar L_0' \bar L_0},\\ &\hat \beta_1 = \frac{\bar L_1' \bar y_1}{\bar L_1' \bar L_1}. \end{align*} $$ Entonces: $$ \begin{align*} \hat \beta &= \frac{\bar L_0' \bar y_0 + \bar L_1'\bar y_1}{\bar L'\bar L},\\ &= \hat \beta_0 \underbrace{\frac{\bar L_0'\bar L_0}{\bar L' \bar L}}_{w_0} + \beta_1 \underbrace{\frac{\bar L_1' \bar L_1}{\bar L' \bar L}}_{w_1},\\ &= \hat \beta_0 \frac{n_0 p_0(1-p_0)}{n_0 p_0(1-p_0) + n_1 p_1(1-p_1)} + \hat \beta_1 \frac{n_1 p_1(1-p_1)}{n_0 p_0(1-p_0) + n_1 p_1(1-p_1)} \end{align*} $$ donde $n_0$ y $n_1$ son los tamaños de las muestras de los subgrupos y $p_0$ y $p_1$ son la fracción de observaciones tratadas dentro de cada subgrupo.

Vemos que ambos $w_0$ y $w_1$ son no negativos, por lo que $\hat \beta$ es una media ponderada de $\hat \beta_0$ y $\hat \beta_1$ . Sin embargo, todavía es posible que uno de los dos sea negativo y el otro positivo.

Si ambos grupos son de igual tamaño, entonces el grupo con mayor varianza (en $L$ ) tendrá el mayor peso. Si ambos grupos tienen la misma varianza, entonces el grupo con el mayor número de observaciones tendrá el mayor peso.

0 votos

Un trabajo increíble para explicar, @tdm, yo totalmente y realmente apreciado, pero estoy buscando una solución. Entiendo más con tu dedicada explicación. Muchas gracias y saludos cordiales.

0 votos

Hola @tdm, ¿puedo preguntar dónde $W_1 + W_2 = I$ ¿que viene de? ¿Qué es lo que $I$ ¿quieres decir?

0 votos

¿Y puedo preguntar qué hacen los " la fracción de observaciones tratadas dentro de cada subgrupo ¿"Significa"?

5voto

smt Puntos 896

Yo interactuaría el regresor que le interesa con una variable ficticia para el país desarrollado y vería qué ocurre. Es muy posible que los mecanismos en juego en los países desarrollados sean diferentes a los del resto del mundo. Dependiendo de cuál sea su objetivo, podría conformarse con la observación de que los efectos son diferentes para los dos grupos de países o podría pensar en modelizar el mecanismo de transmisión de forma explícita.

1 votos

¿Existe alguna referencia para esta forma de prueba, puedo preguntar?

1 votos

@BeautifulMindset, tienes dos muñecos - legistación - {sí, no} y desarrollado - {sí, no}, el producto de los dos muñecos también es un muñeco. Es uno si los dos son positivos. El valor del coeficiente de la variable ficticia es la diferencia entre (sí, sí) y (legislación = sí, desarrollado = no), ya que no se incluye la variable ficticia desarrollada en la regresión por sí sola. Se comprueba simplemente añadiendo la interacción a la ecuación de regresión, por ejemplo, en R se añadiría "+legislación:desarrollado" al objeto de la fórmula

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X