4 votos

Errores estándar agrupados

(Mi pregunta de investigación se basa en la economía, pero para simplificar, estoy utilizando un ejemplo no económico)

Supongamos que intento averiguar si la temperatura corporal media de una población es igual a 37 grados centígrados. Tomo una muestra aleatoria de personas y les tomo la temperatura corporal.

El problema es que algunas personas se han tomado la temperatura corporal una vez, pero otras se la han tomado varias veces (dos, tres o incluso diez veces).

Normalmente, haría una regresión de la temperatura corporal sobre una constante, y haría pruebas de hipótesis con $H_0: \beta_0 = 37$ . Sin embargo, me preocupa la correlación serial.

¿Bastaría con agrupar los errores estándar por persona para corregir esta correlación serial? (por ejemplo, utilizando reg bodytemperature, cluster(person) en Stata)

0 votos

En general, la agrupación no se ocupa de la correlación serial. Además, la forma en que usted sugiere agrupar implicaría N clusters con una observación cada uno, lo que generalmente no es una buena idea. Además, ¿por qué te preocupa la correlación serial en este caso? No veo cómo la correlación serial en su muestra se ve afectada por el hecho de que las personas en el pasado hayan medido su temperatura y usted no tiene un panel por lo que entiendo. Para preguntas sobre la agrupación, puedo recomendar encarecidamente el documento de Cameron y Miller "A Practitioner's Guide to Cluster-Robust Inference".

0 votos

Uy, perdón, no me he explicado bien. Lo que quería decir es que algunas personas se han tomado la temperatura varias veces, y esto queda registrado en su conjunto de datos. Por ejemplo, si me he tomado la temperatura cinco veces, entonces se registrará en el conjunto de datos como cinco observaciones, pero con mi nombre al lado.

1voto

mummey Puntos 263

No estoy seguro de que esto responda a su pregunta, pero permítame intentarlo con un ejemplo concreto utilizando Stata y sus Datos de Automóviles de 1978 para hacer una regresión del precio del coche sobre el kilometraje (mpg).

sysuse auto, clear    
reg price mpg, robust

Esto da una estimación de precios de -238,9, con un error estándar (e.e.) de 57,5. Entonces, si ejecuto la misma regresión después de duplicar las observaciones tres veces.

expand 3
reg price mpg, robust

Obtengo, como era de esperar, un e.s. mucho más bajo de 32,9. Por último, agrupando los e.s. por marca (a Car Id)

reg price mpg, cluster(make)

da una e.s. de 57,2 y hace el truco.

Sin embargo, si amplía dos veces algunas observaciones y tres veces otras (como en su ejemplo). Entonces, obtendrá una e.s. mayor pero también una estimación diferente. Pero, de nuevo, la agrupación por marca reduce la e.s. Aquí está el código:

sysuse auto, clear
expand 3 if price>4000 & price<=6000
expand 2 if price>6000
reg price mpg, robust
reg price mpg, cluster(make)

Tenga en cuenta que las variables de precio y mpg se han ampliado sin ningún cambio para cada coche. En su ejemplo, si los que se han tomado la temperatura varias veces tienen cada vez una temperatura diferente, entonces puede considerar la introducción de un efecto fijo individual .

0 votos

Este es un ejercicio interesante. Sin embargo, su muestra ampliada no es aleatorio ya que ha ampliado la muestra basándose en un if condición. Si los individuos con múltiples temperaturas son una muestra aleatoria de la población, tu ejemplo no es equivalente. Te sugiero que pruebes con una expansión aleatoria, por ejemplo, creando una variable con una extracción aleatoria de un uniforme entre 1 y 3 y luego usando esa variable como fweight . Estoy deseando ver los resultados de esto.

0voto

user10775 Puntos 121

Si quiere seguir con OLS, su sugerencia (agrupación) parece buena. Si quiere buscar la eficiencia, puede utilizar la FGLS de efectos aleatorios ( xtreg bodytemperature, i(person) ) estimación.

Si crees que todas las temperaturas corporales son idénticas en promedio, está bien usar cualquiera de ellas. Pero si son heterogéneas (debido a los genes o lo que sea), ninguna es satisfactoria. Yo preferiría pensar más en lo que significa "temperatura corporal media".

Pongamos un ejemplo. Cuando su población es de tres personas (101, 102 y 103) y su muestra es

i      person         x      /* x = measured temp */
1       101         36.5
2       102         36.8
3       102         37.8
4       103         37.5

(nótese que la persona 102 se mide dos veces), supongo que lo que quieres es $A=(1/3) \times [E(temp_{101}) + E(temp_{102}) + E(temp_{103}) ]$ . Sin embargo, OLS (la media no ponderada) es igual a $(1/4) \times (x_1 + x_2 + x_3 + x_4)$ que es un estimador insesgado de $B=(1/4) \times [ E(temp_{101}) + E(temp_{102}) + E(temp_{102}) + E(temp_{103}) ]$ . Si $A = B$ Está bien, pero $A$ y $B$ puede ser diferente.

Cuando quieras $A$ lo que se quiere calcular es $A_{be} = (1/3) \times [x_1 + (x_2 + x_3)/2 + x_4]$ , mientras que OLS pone demasiado peso en la persona 102. $A_{be}$ se denomina "estimador entre grupos (BE)" del panel. Se puede obtener mediante xtreg bodytemperature, be i(person) .

Para el conjunto de datos anterior, la estimación del BE (de $A$ ) es de 37,1, mientras que la estimación OLS (de $B$ ) es 37,15. Pruebe lo siguiente en Stata (copiar y pegar).

* Copy & paste into Stata
clear all
input person temp
101 36.5
102 36.8
102 37.8
103 37.5
end
gen temp37 = temp-37
reg temp37, vce(cluster person)
xtreg temp37, be i(person)

(He restado 37 deliberadamente para comprobar su hipótesis nula).

0voto

luchonacho Puntos 7713

Creo que estás complicando demasiado la cuestión. No hay ninguna razón de peso para creer que la medición de la temperatura de un mismo individuo en distintas épocas deba ser dependiente . Si el termómetro (o el instrumento utilizado para medir la temperatura) es de buena calidad, las observaciones, tanto a lo largo del tiempo como de la muestra, son independientes. Por lo tanto, se pueden tratar múltiples observaciones del mismo individuo como si fueran de otros individuos. No es necesario agruparlas. En otras palabras, su muestra es $iid$ bajo el cual las estimaciones OLS son insesgadas y consistentes.

Si sigue creyendo que existe una dependencia de la medición a lo largo del tiempo (pero tiene que argumentar por qué), sí puede utilizar la agrupación. La comparación de los dos modelos le dará una idea de si la agrupación es realmente necesaria.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X