En EE.UU., muchos análisis combinan los datos del CPS o del Censo y realizan regresiones sobre las medias de los grupos. Me pregunto por qué no hacer la regresión con los datos individuales. En ausencia de error de medición, ¿deberíamos esperar que la regresión sobre los datos individuales y agregados fuera la misma?
He aquí un ejemplo de Stata con datos aleatorios en el que las regresiones a nivel individual o sobre las medias parecen proporcionar estimaciones diferentes.
EDIT :
Siguiendo los comentarios de BB King, he cambiado el ejemplo para incluir un "choque" a nivel de grupo. En este caso, parece que la regresión individual 1. y la regresión de colapso sobre datos transformados 3. ofrecen resultados similares. ¿Es éste un resultado general?
** make some random data
set seed 35135
clear
set obs 1000
gen state = ceil(_n/100)
gen shock = runiformint(0,1000)
bysort state (shock): replace shock = shock[_N]
gen wage = abs(int(rnormal() * 1000))
gen age = floor(abs(rlogistic()) * 15 + abs(rlogistic() * 5))
** 1. individual data
gen age2 = age^2
gen ln_wage = ln(wage)
reg ln_wage age age2 shock
reg ln_wage age age2 shock i.state
** 2. aggregated data
preserve
collapse (mean) wage age shock, by(state)
gen age2 = age^2
gen ln_wage = ln(wage)
reg ln_wage age age2 shock
restore
** 3. transform before collapsing
collapse (mean) ln_wage age age2 shock, by(state)
reg ln_wage age age2 shock