Quiero estimar el impacto que tienen las réplicas en las citas. Para ello, quiero hacer un diff-in-diff escalonado, comparando los papers replicados vs los no replicados.
En mi conjunto de datos tengo alrededor de 80 papers que fueron replicados (por lo tanto, mi grupo de tratamiento), y 160 que nunca fueron replicados. Para garantizar la comparabilidad, solo tomé papers empíricos que fueron publicados en las mismas revistas, volúmenes, números y sobre los mismos temas o códigos JEL.
Mi supervisor sugirió comenzar con un diff-in-diff "simple", para ver algún efecto inicial y luego proceder a hacer la versión escalonada (y probablemente una regresión de Poisson ya que mi variable dependiente es un número de conteo no negativo).
Para el diff-in-diff, mi dummy de tratamiento es "replicado", que es 1 para los papers replicados y 0 para el resto. Y mi problema/pregunta es con mi dummy de tiempo d_time, porque: como puedes ver, mis observaciones tratadas tienen diferentes años de tratamiento. En este ejemplo, uno fue tratado en 2021 y otro en 2018. Pero tengo 80 papers que fueron replicados en total, por lo que cada uno fue replicado en diferentes años. Entonces, hay un antes y un después para el grupo de control, pero no hay un antes y un después específicos para todo el tratamiento, así que no sé contra qué comparar.
¿Sería correcto que mi dummy de tiempo d_time tome los valores de 0 para todos mis control? Sin embargo, creo que es por esto que obtengo colinealidad en mis primeros resultados:
¿Estoy haciendo algo completamente mal? ¿Alguien podría iluminarme un poco? Soy muy nuevo en esto, pido disculpas si no es claro pero espero que lo sea.
EDICIÓN
El "simple" Diff-in-Diff sugerido se vería algo así:
¿Sería correcto para el grupo de control (replicado=0), tener un 0 en la columna post_rep? mientras que solo el grupo tratado (replicado=1) tiene 0 y 1? ¿Tendría sentido realizar tal análisis?