1 votos

CPS CEPR: ORG y mensual

¿Cómo almacena el CPS CEPR la información sobre el empleo de los meses no OCDE?

Estoy tratando de reproducir Mueller (2012) . Dice

La CPS es la principal encuesta de población activa de EE.UU., representativa de la población de 15 años o más. Tiene una estructura de panel rotatorio, en la que los hogares son encuestados en cuatro meses consecutivos, rotan fuera del panel durante ocho meses, y luego son encuestados de nuevo durante otros cuatro meses consecutivos.

Pero también dice

Tenga en cuenta que la CPS registra cada mes la situación laboral de cada persona de la muestra. Sin embargo, las horas semanales y los ingresos sólo se recogen en la cuarta y octava entrevista de la encuesta,

Esto significa que el CEPR ha

  • Archivos ORG que contienen los salarios
  • archivos mensuales que contienen la situación de la población activa

En el Sitio mensual del CEPR dice que

Las variables de datos mensuales básicos de la CPS se incorporan a los datos ORG de la CPS del CEPR.

Lo que significa que sólo tengo que descargar los datos del CEPR ORG. Parece una buena noticia.

He descargado los años 2013 y 2014 desde aquí . Minsamp corresponde a la entrevista mensual, la variable tiene valores únicos 4 y 8 (que son los meses de entrevistas salientes). Hasta ahora, todo va bien. Hay un empl variable que parece codificar la situación laboral. Sin embargo, no puedo encontrar la situación laboral para otros meses que no sean los de la entrevista. No puedo encontrar ni filas adicionales, que llevarían esa información en forma larga, ni columnas adicionales, que podrían llevarla en forma ancha.

Así es como se ve un extracto de datos (restringiendo algunas columnas y filas):

                              age      wage4  year  month  minsamp  empl
hhid            hhid2 lineno                                            
000000113071409 03011 1        67        NaN  2014     12        4     0
000005890210971 02011 1        25        NaN  2014      8        4   NaN
                      2        26        NaN  2014      8        4     0
000005893210371 03011 1        24  15.600000  2014     12        4     1
                      2        25  30.333334  2014     12        4     1
                      3        24  51.000000  2014     12        4     1
000008171510365 02011 1        61  19.225000  2014      8        4     1
                02111 1        37  16.250000  2014      7        4     1
                      2        39        NaN  2014      7        4     0
000010415001537 03011 1        45  18.000000  2014     11        4     1
                      2        42  26.442249  2014     11        4     1
000010666500851 02011 1        49  21.538401  2014      8        4     1
                      2        44  20.000000  2014      8        4     1
                      3        19  14.500000  2014      8        4     1
                      4        19   7.750000  2014      8        4     1
                02111 1        61        NaN  2014      8        4     1
                      2        54  15.000000  2014      8        4     1
                      3        53        NaN  2014      8        4     1
000011141520290 90001 1        40   7.500000  2013      4        8     1
                      2        46        NaN  2013      4        8   NaN
                91001 1        62        NaN  2013     12        8     0
                92001 1        32  30.000000  2013      8        4     1
                      1        33  20.150000  2014      8        8     1
                      2        30        NaN  2013      8        4     0
                      2        32        NaN  2014      8        8     0
                93001 1        52  30.250000  2014      4        4     1
                      2        55  18.025000  2014      4        4     1

Como puede ver, para cada miembro único del hogar (cada combinación hhid-hhid2-lineno), sólo hay una fila. Y si de alguna manera se almacena en el formato ancho, esperaría que el nombre contenga 'emp' en alguna parte:

... [x for x in df.columns if 'emp' in x]
['empl', 'unempt', 'selfemp', 'pdemp1', 'pdemp2', 'nmemp1', 'nmemp2']

donde los cuatro primeros corresponden a la situación laboral del individuo (pero no en meses diferentes), y los últimos al número de empleados vinculados al individuo (y similares).

Está claro que la información debe estar ahí, en alguna parte. Así que.., ¿Cómo almacena el CPS CEPR la información sobre el empleo de los meses no OCDE?

1voto

Xcalibur Puntos 111

Desempolvando las telarañas... El "archivo salarial" de microdatos, como lo llamo yo, y el archivo ORG, como lo llamas tú, sólo tienen información para el mes en el que se preguntó al encuestado por el salario. La CPS es una serie temporal sólo en forma de datos agregados. No conozco el estudio que estás replicando, así que no puedo ser de más ayuda. Intente añadir cuál es su objetivo, por ejemplo, quiero medir la diferencia salarial de los grupos de edad en la industria/ocupación XYZ o lo que sea. Mi experiencia fue en la estimación de la distribución salarial por hora de los trabajadores en California.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X