6 votos

Regresión sobre datos individuales frente a datos agrupados

En EE.UU., muchos análisis combinan los datos del CPS o del Censo y realizan regresiones sobre las medias de los grupos. Me pregunto por qué no hacer la regresión con los datos individuales. En ausencia de error de medición, ¿deberíamos esperar que la regresión sobre los datos individuales y agregados fuera la misma?

He aquí un ejemplo de Stata con datos aleatorios en el que las regresiones a nivel individual o sobre las medias parecen proporcionar estimaciones diferentes.

EDIT :

Siguiendo los comentarios de BB King, he cambiado el ejemplo para incluir un "choque" a nivel de grupo. En este caso, parece que la regresión individual 1. y la regresión de colapso sobre datos transformados 3. ofrecen resultados similares. ¿Es éste un resultado general?

** make some random data
set seed 35135
clear
set obs 1000
gen state = ceil(_n/100)
gen shock = runiformint(0,1000)
bysort state (shock): replace shock = shock[_N]
gen wage = abs(int(rnormal() * 1000))
gen age = floor(abs(rlogistic()) * 15 + abs(rlogistic() * 5))

** 1. individual data
gen age2 = age^2
gen ln_wage = ln(wage)

reg ln_wage age age2 shock
reg ln_wage age age2 shock i.state

** 2. aggregated data
preserve 
    collapse (mean) wage age shock, by(state)
    gen age2 = age^2
    gen ln_wage = ln(wage)

    reg ln_wage age age2 shock
restore

** 3. transform before collapsing
collapse (mean) ln_wage age age2 shock, by(state)
reg ln_wage age age2 shock

4voto

jack.spicer Puntos 301

En general, la regresión a nivel individual no garantiza los mismos resultados que a nivel de grupo. Los resultados pueden ser los mismos, dependiendo de cómo se hayan agrupado los datos, pero no siempre.

Sin embargo, puede haber diferentes razones para hacer una regresión a nivel agrupado/colapsado en lugar de individual.

Una de las razones puede ser como comprobación de robustez además de la regresión a nivel individual.

Una razón muy común, es cuando la variable de interés, como el tratamiento, sólo varía a nivel de grupo y no a nivel individual.

En ese caso, no existe una variación significativa a nivel individual para la pregunta de investigación en cuestión. Dado que la variable de interés tomaría el mismo valor para todos los individuos de un grupo y un valor diferente para todos los individuos de otro grupo, toda la variación se produce a nivel de grupo.

En ese caso, existe el peligro de que una regresión a nivel individual sobrestime la significación (subestime los errores estándar), porque se están utilizando más observaciones, lo que reduce los errores estándar, pero en realidad esas observaciones son duplicados sin sentido en lo que respecta a la variable de interés (por ejemplo, el tratamiento). Esto podría solucionarse parcialmente agrupando los errores estándar por grupos.

Como ejemplo, supongamos que se analiza una política que afecta a todos los habitantes de un condado y se desea compararla con los condados no tratados. Entonces, la variable principal que le interesa -el tratamiento- no varía en función de cada persona de ese condado. La variable de tratamiento tiene el mismo valor para cada individuo en cualquier condado, por lo que debe colapsar por condado antes de realizar la regresión.

Otro punto a tener en cuenta aquí es que es posible que desee realizar un colapso ponderado antes de la regresión, de modo que el grupo colapsado sea más representativo. Por ejemplo, en lugar de colapsar todas las empresas de un grupo (por ejemplo, un condado) y aplicar la regresión a la media de todas las empresas, es posible que desee ponderar las empresas por tamaño. Esto se debe a que las empresas más grandes representan una mayor proporción de la actividad económica, por lo que puede tener sentido darles una mayor ponderación que a las empresas más pequeñas, en lugar de tratar a todas las empresas por igual en el colapso.

4voto

Ben Puntos 129

¿Debemos esperar que la regresión de los datos individuales y agregados sea la misma?

No necesariamente. Una de las razones es que los datos pueden agregarse de más de una manera, y diferentes agregaciones pueden dar resultados diferentes, un fenómeno conocido, para la agregación espacial, como el problema de la unidad de área modificable . Si diferentes agregaciones conducen a resultados diferentes, entonces algunas al menos deben dar resultados diferentes a los datos individuales.

4voto

Siu Puntos 52

Diapositivas de Peter Hull incluyen una sección sobre esto, supongo que tomada de MHE, que argumenta que si el tratamiento varía sólo a nivel de grupo, una regresión ponderada sobre las medias a nivel de grupo debería dar los mismos resultados que la regresión a nivel micro.

enter image description here

enter image description here

¿Tal vez tenga que ver con los controles? Puedo actualizar mi código para obtener una regresión ponderada por recuento a nivel micro y de grupo para obtener los mismos resultados sin controles (véase 4. en el código), pero no con el ejemplo original que incluía controles.

** make some random data
set seed 35135
clear
set obs 1000
gen state = ceil(_n/100)
gen shock = runiformint(0,1000)
bysort state (shock): replace shock = shock[_N]
gen wage = abs(int(rnormal() * 1000))
gen age = floor(abs(rlogistic()) * 15 + abs(rlogistic() * 5))

** 1. individual data
gen age2 = age^2
gen ln_wage = ln(wage)

reg ln_wage age age2 shock
reg ln_wage age age2 shock i.state

** 2. aggregated data
preserve 
    collapse (mean) wage age shock (count) count=wage, by(state)
    gen age2 = age^2
    gen ln_wage = ln(wage)

    reg ln_wage age age2 shock [aweight=count]
restore

** 3. transform before collapsing
preserve
    collapse (mean) ln_wage age age2 shock (count) count=wage, by(state)
    reg ln_wage age age2 shock [aweight=count]
restore

** 4. without contrals 
reg wage shock
collapse (mean) wage shock (count) count=wage, by(state)
reg wage shock [aweight=count]

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X