4 votos

Aleatorización y equilibrio en los experimentos

Supongamos que estamos interesados en el efecto de algún "tratamiento" sobre algún resultado de interés. Una práctica habitual es seleccionar un grupo de personas y luego al azar elegir alguna fracción (a menudo la mitad) para recibir el tratamiento. El resto no recibe el tratamiento (es decir, el "control"). Como se muestra en (por ejemplo) Angrist y Pischke La diferencia de resultados medios entre los grupos es entonces una estimación insesgada del efecto causal medio del tratamiento.

Aunque este procedimiento nos proporciona una estimación no sesgada, no garantiza que el grupo de tratamiento y el de control estén "equilibrados" en cuanto a criterios observables. Por ejemplo, aunque en promedio habrá la misma fracción de hombres en los grupos tratados y no tratados, en nuestra muestra real es probable que haya una mayor fracción de hombres en uno de los grupos. En tal situación, parece natural tomar simplemente algunos hombres del grupo "excesivamente masculino" y colocarlos en el "grupo excesivamente femenino" hasta que la proporción de sexos sea la misma en ambos grupos. (Si quisiéramos, podríamos seleccionar los hombres al azar).

Algunas preguntas:

  • Si lo hacemos, ¿la diferencia de resultados medios entre los grupos tratados y no tratados seguirá siendo una estimación insesgada del efecto causal?
  • Si es así, ¿por qué no se hace en todos los ECA?
  • Si no es así, ¿cómo compensamos las ventajas de lograr el "equilibrio" con el posible sesgo que estamos introduciendo?

Es un extra opcional: Soy consciente de que este procedimiento parece bastante similar a la "estratificación". Sin embargo, tengo entendido que, después de estratificar, no se comparan los resultados medios de los grupos tratados y no tratados (sino que se comparan los resultados medios de cada submuestra en la que se ha estratificado, o, de forma equivalente, se realiza una regresión con variables ficticias de estratificación). Si mi propuesta es realmente equivalente a la estratificación, mi pregunta es entonces equivalente a la pregunta de por qué necesitamos estas variables ficticias y cuáles son los costes y beneficios de la estratificación.

3voto

Arjun S Puntos 21

Vale, no soy ni mucho menos un econometrista, pero mi línea de pensamiento sería la siguiente:

Mediante la asignación aleatoria tenemos dos grupos que son de media iguales entre sí en todo aspectos. Como bien señalas, debido a la variación del muestreo habrá diferencias.

Lo que me preocupa es que si empiezo a "corregir" esos datos después de la aleatorización (como en su ejemplo de la distribución por sexos), introduzca otras diferencias entre los grupos, por ejemplo, de edad o incluso de una característica no observada pero importante.

La estratificación es diferente, ya que se hace por adelantado. Tienes una característica que sabes que es diferente para los distintos grupos, así que tomas las muestras aleatorias dentro de esos grupos. Un ejemplo bastante ingenuo: sabemos que el efecto de tomar píldoras anticonceptivas es bastante diferente para los hombres y las mujeres, por lo que si se quiere probar el efecto de la píldora sobre la fertilidad se podría estratificar por sexo y luego hacer una asignación aleatoria dentro de los sexos.

0 votos

Este es un buen punto. Sin embargo, ¿no es posible que al equilibrar los observables estemos en realidad haciendo que los inobservables estén más equilibrados (al igual que podríamos hacerlos menos equilibrados)?

0 votos

Por supuesto, las inobservables estaban equilibradas antes en la expectativa. Sin embargo, en la muestra real, es probable que estén desequilibrados, al igual que los observables. No me parece obvio que el equilibrio de los observables tienda a hacer que los no observables estén más (o menos) desequilibrados.

0 votos

Estoy de acuerdo con la mayor parte de lo que dices, pero la cuestión es que, especialmente en el caso de las variables no observables, no sabemos si el reequilibrio aumentará o disminuirá las diferencias, por lo que preferiría mantenerlas iguales en la expectativa. O, en caso de desequilibrio grave, tomar una nueva muestra aleatoria, si uno se puede permitir ese lujo. El enfoque sugerido por @1muflon1 de reequilibrar de forma aleatoria parece una segunda opción decente.

1voto

Matthias Benkard Puntos 11264

La idea es que para la inferencia causal se quiere poder tratar al grupo de control como un contrafactual. En el mundo ideal querrías ser capaz de observar un mundo paralelo en el que las mismas personas a las que das el tratamiento no lo reciben.

El muestreo aleatorio simple promete conseguirlo, ya que mientras todos tengan una oportunidad realmente aleatoria y, lo que es más importante, igual de ser incluidos, la distribución de las variables no observables debería ser la misma entre los grupos y no debería haber ningún sesgo.

Sin embargo, si se toman muestras aleatorias (sobre todo si no son realmente grandes) se puede acabar por casualidad con una muestra en la que digamos que el 90% del control son sólo hombres y sólo el 10% mujeres. En ese caso, es posible que quieras equilibrar esto porque entonces el control puede no ser realmente un buen contrafactual.

Esto no significa que puedas equilibrarlo de la manera que quieras. Las personas deben pasar de un grupo a otro de forma aleatoria para evitar el sesgo o, mejor aún, se deben mezclar los grupos de control y de tratamiento y volver a aleatorizar y comprobar la distribución. Si el número de hombres/mujeres entre el tratamiento y el control no es significativamente diferente desde el punto de vista estadístico, continúe con el experimento.

El objetivo es siempre crear el mejor contrafactual posible. Esto podría hacerse incluso sin un muestreo aleatorio simple, por ejemplo, utilizando el emparejamiento de la puntuación de propensión.

A veces, incluso puede ser necesario realizar/observar un experimento de campo en el que no es posible la aleatorización, pero todavía hay técnicas que intentan encontrar un buen contrafactual (es posible que quieras mirar las diferencias en las diferencias o el enfoque de control sintético).

De hecho, en OLS simple el coeficiente sesgado puede expresarse como

$$ E[\beta]= \beta + \gamma \frac{cov(x,e)}{var(x)}$$

Donde el segundo término es el sesgo. Por lo tanto, para eliminar el sesgo hay que asegurarse de que la variable independiente sea también independiente del término de error $cov(x,e)=0$ . El muestreo aleatorio simple puede ayudar a conseguirlo, pero no es la panacea. Si la muestra está muy desequilibrada y por casualidad todas las mujeres están en el control y los hombres en el tratamiento, entonces el tratamiento no será realmente independiente de las variables no observables.

0voto

Siu Puntos 52

Una pequeña perorata sobre las pruebas de equilibrio:

Tienes dos grupos, uno tratado y otro no. Has asignado aleatoriamente a ambos grupos. Ahora realice una prueba t para las diferencias de medias entre estos dos grupos. ¿Qué está probando? Sí, la probabilidad de que las diferencias entre estos grupos se deban al puro azar si proceden de la misma distribución. ¿Necesitamos probar esto? No, sabemos que es cierto porque, para empezar, hemos extraído al azar a los participantes de nuestro marco de muestreo.

Sigue siendo un misterio para mí por qué Angrist y Pischke incluyeron esta larga discusión sobre las pruebas de equilibrio en la sección del MHE sobre el ideal experimental. En todo caso, cuestiones como la absorción no aleatoria o el desgaste deberían ser motivos de preocupación, pero no las diferencias entre los dos grupos de asignación.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X