Supongamos que estamos interesados en el efecto de algún "tratamiento" sobre algún resultado de interés. Una práctica habitual es seleccionar un grupo de personas y luego al azar elegir alguna fracción (a menudo la mitad) para recibir el tratamiento. El resto no recibe el tratamiento (es decir, el "control"). Como se muestra en (por ejemplo) Angrist y Pischke La diferencia de resultados medios entre los grupos es entonces una estimación insesgada del efecto causal medio del tratamiento.
Aunque este procedimiento nos proporciona una estimación no sesgada, no garantiza que el grupo de tratamiento y el de control estén "equilibrados" en cuanto a criterios observables. Por ejemplo, aunque en promedio habrá la misma fracción de hombres en los grupos tratados y no tratados, en nuestra muestra real es probable que haya una mayor fracción de hombres en uno de los grupos. En tal situación, parece natural tomar simplemente algunos hombres del grupo "excesivamente masculino" y colocarlos en el "grupo excesivamente femenino" hasta que la proporción de sexos sea la misma en ambos grupos. (Si quisiéramos, podríamos seleccionar los hombres al azar).
Algunas preguntas:
- Si lo hacemos, ¿la diferencia de resultados medios entre los grupos tratados y no tratados seguirá siendo una estimación insesgada del efecto causal?
- Si es así, ¿por qué no se hace en todos los ECA?
- Si no es así, ¿cómo compensamos las ventajas de lograr el "equilibrio" con el posible sesgo que estamos introduciendo?
Es un extra opcional: Soy consciente de que este procedimiento parece bastante similar a la "estratificación". Sin embargo, tengo entendido que, después de estratificar, no se comparan los resultados medios de los grupos tratados y no tratados (sino que se comparan los resultados medios de cada submuestra en la que se ha estratificado, o, de forma equivalente, se realiza una regresión con variables ficticias de estratificación). Si mi propuesta es realmente equivalente a la estratificación, mi pregunta es entonces equivalente a la pregunta de por qué necesitamos estas variables ficticias y cuáles son los costes y beneficios de la estratificación.