¿Cómo almacena el CPS CEPR la información sobre el empleo de los meses no OCDE?
Estoy tratando de reproducir Mueller (2012) . Dice
La CPS es la principal encuesta de población activa de EE.UU., representativa de la población de 15 años o más. Tiene una estructura de panel rotatorio, en la que los hogares son encuestados en cuatro meses consecutivos, rotan fuera del panel durante ocho meses, y luego son encuestados de nuevo durante otros cuatro meses consecutivos.
Pero también dice
Tenga en cuenta que la CPS registra cada mes la situación laboral de cada persona de la muestra. Sin embargo, las horas semanales y los ingresos sólo se recogen en la cuarta y octava entrevista de la encuesta,
Esto significa que el CEPR ha
- Archivos ORG que contienen los salarios
- archivos mensuales que contienen la situación de la población activa
En el Sitio mensual del CEPR dice que
Las variables de datos mensuales básicos de la CPS se incorporan a los datos ORG de la CPS del CEPR.
Lo que significa que sólo tengo que descargar los datos del CEPR ORG. Parece una buena noticia.
He descargado los años 2013 y 2014 desde aquí . Minsamp
corresponde a la entrevista mensual, la variable tiene valores únicos 4
y 8
(que son los meses de entrevistas salientes). Hasta ahora, todo va bien. Hay un empl
variable que parece codificar la situación laboral. Sin embargo, no puedo encontrar la situación laboral para otros meses que no sean los de la entrevista. No puedo encontrar ni filas adicionales, que llevarían esa información en forma larga, ni columnas adicionales, que podrían llevarla en forma ancha.
Así es como se ve un extracto de datos (restringiendo algunas columnas y filas):
age wage4 year month minsamp empl
hhid hhid2 lineno
000000113071409 03011 1 67 NaN 2014 12 4 0
000005890210971 02011 1 25 NaN 2014 8 4 NaN
2 26 NaN 2014 8 4 0
000005893210371 03011 1 24 15.600000 2014 12 4 1
2 25 30.333334 2014 12 4 1
3 24 51.000000 2014 12 4 1
000008171510365 02011 1 61 19.225000 2014 8 4 1
02111 1 37 16.250000 2014 7 4 1
2 39 NaN 2014 7 4 0
000010415001537 03011 1 45 18.000000 2014 11 4 1
2 42 26.442249 2014 11 4 1
000010666500851 02011 1 49 21.538401 2014 8 4 1
2 44 20.000000 2014 8 4 1
3 19 14.500000 2014 8 4 1
4 19 7.750000 2014 8 4 1
02111 1 61 NaN 2014 8 4 1
2 54 15.000000 2014 8 4 1
3 53 NaN 2014 8 4 1
000011141520290 90001 1 40 7.500000 2013 4 8 1
2 46 NaN 2013 4 8 NaN
91001 1 62 NaN 2013 12 8 0
92001 1 32 30.000000 2013 8 4 1
1 33 20.150000 2014 8 8 1
2 30 NaN 2013 8 4 0
2 32 NaN 2014 8 8 0
93001 1 52 30.250000 2014 4 4 1
2 55 18.025000 2014 4 4 1
Como puede ver, para cada miembro único del hogar (cada combinación hhid-hhid2-lineno), sólo hay una fila. Y si de alguna manera se almacena en el formato ancho, esperaría que el nombre contenga 'emp' en alguna parte:
... [x for x in df.columns if 'emp' in x]
['empl', 'unempt', 'selfemp', 'pdemp1', 'pdemp2', 'nmemp1', 'nmemp2']
donde los cuatro primeros corresponden a la situación laboral del individuo (pero no en meses diferentes), y los últimos al número de empleados vinculados al individuo (y similares).
Está claro que la información debe estar ahí, en alguna parte. Así que.., ¿Cómo almacena el CPS CEPR la información sobre el empleo de los meses no OCDE?