Los efectos del tratamiento son efectos causales de un tratamiento binario. Debido a que el tratamiento es binario, las personas son tratadas o no son tratadas. Para fines de ejemplo, supongamos que el tratamiento es la participación en un curso para ganar dinero: se dice que el curso te hace mejor en ganar dinero.
Obviamente, el efecto causal de dicho curso podría ser muy diferente de una persona a otra (esto se conoce como heterogeneidad del tratamiento). Algunas personas pueden aprender mucho del curso y realmente mejorar en ganar dinero mientras que otros se aburrirán con el contenido del curso y experimentarán un efecto nulo. Como es usual cuando medidas cuantitativas importantes varían entre unidades observacionales, una estadística resumen canónica es el promedio. El Efecto Promedio del Tratamiento (ATE) es simplemente eso: El promedio de los efectos de tratamiento individuales de la población en consideración. Y el Efecto Promedio del Tratamiento de los Tratados (ATT) es simplemente el promedio de los efectos de tratamiento individuales de aquellos tratados (por lo tanto, no de toda la población).
Para aclarar formalmente cuál es el efecto causal del tratamiento, a menudo se asume que para cada individuo $i$ existe una cantidad de dinero $Y_i^0$ que el individuo $i$ ganará sin tomar el curso de entrenamiento. Y también existe una cantidad de dinero $Y^1_i$ que el individuo $i$ ganará si toma el curso. El efecto causal para el individuo $i$ de la participación en el curso se define entonces como
$$\tau_i := Y_i^1- Y^0_i,$$
la diferencia en el resultado con y sin tratamiento.
Para fines de ejemplo, considera la siguiente tabla para 6 individuos:
Es claro a partir de la tabla que los individuos $i=1,2,3$ están tratados $D_i=1$ mientras que los $i=4,5,6$ no están tratados. Para aquellos que están tratados, la cantidad observada de dinero ganada por el individuo $Y_i$ es igual a $Y_i^1$. Para aquellos que no están tratados, la cantidad observada de dinero ganada $Y_i$ es igual a $Y_i^0$. En general, esto se escribe como
$$Y_i = D_i Y_i^1 + (1-D_i)Y_i^0.$$
Una parte importante de la configuración es, por lo tanto, que mientras se asume que $Y_i^1$ y $Y_i^0$ existen, no se asume que sean observados.
Sin embargo, volviendo a ATT y ATE. En el ejemplo anterior, ATE se puede calcular como
$$ATE := \frac{1}{N} \sum_i \tau_i = \frac{1}{N} \sum_i (Y_i^1 - Y_i^0) = \frac{1+1+1+0+1-1}{6} = 0.5,$$
y el efecto promedio del tratamiento de los tratados se calcula como
$$ATT := \frac{1}{N_1} \sum_i \tau_i = \frac{1}{N_1} \sum_i (Y_i^1 - Y_i^0) = \frac{1+1+1}{3} = 1.0,$$
donde $N_1 = \sum_i D_i = 3$.
En este ejemplo, ATE y ATT son numéricamente iguales, pero como se puede ver, son promedios de diferentes conjuntos de efectos causales individuales. Como tales, no necesariamente se espera que sean iguales. Intenta construir un ejemplo tú mismo donde sean diferentes simplemente cambiando el grupo de individuos tratados.
El efecto promedio del tratamiento (ATE) se utiliza cuando estamos interesados en el tratamiento promedio de toda la población, mientras que el efecto promedio del tratamiento de los tratados (ATT) se utiliza cuando solo estamos interesados en el efecto promedio del tratamiento de aquellos tratados.