No creo que la premisa sea correcta. Siguiendo a Brüderland y Volker en Best & Wolf The SAGE Handbook of Regression Analysis and Causal Inference [los corchetes tienen mis observaciones]:
Ambos estimadores requieren una exogeneidad estricta [Efectos Fijos (EF) y Primeras Diferencias (FD)]. Sin embargo, mientras que FE se basa en la suposición de que no hay correlación serial antes de la reducción (véase la condición (15.10)), FD se basa en la ausencia de correlación serial en los errores diferenciados. Este último supuesto equivale a una correlación muy fuerte correlación en los errores no transformados. Por tanto, FE y FD se basan en supuestos que son extremos opuestos.
Así que ambos estimadores requieren una fuerte exogeneidad.
Dicho esto, la FE tiene serias ventajas sobre la FD. De nuevo, siguiendo a Brüderland y Volker:
Cualquiera de los cuatro estimadores internos básicos es apropiado para tratar con factores de confusión constantes en el tiempo. Sin embargo, la regresión FE tiene algunas ventajas prácticas importantes sobre los demás. ...
La FD podría ser preferible en presencia de una fuerte correlación serial. Sin embargo, además de esa ventaja, tiene la desventaja de ser ineficiente porque el período inicial inicial se elimina en cualquier caso. Además, la ineficiencia puede ser muy grande en presencia de datos perdidos, porque las primeras diferencias sólo pueden construirse a partir de las observaciones siguientes. Por ejemplo si se observa a una persona en $t = 1, 3, 5,$ entonces FE utilizaría los tres años-persona, pero en FD la persona se eliminaría por completo. Con datos de panel (equilibrados) para $T = 2$ el estimador DiD es idéntico al de FE y FD. Sin embargo, para paneles más largos, difiere en general. De hecho, puede dar respuestas engañosas porque todas las variables entran en la regresión en niveles. Si hay variables de control (que suele ser el caso), es probable que su efecto esté sesgado, lo que también puede inducir un sesgo en el efecto del tratamiento. Por lo tanto, se recomienda utilizar FE (o FD) en la que todas las variables se transformadas (Wooldridge, 2010, p. 321).
No hay que subestimar la ventaja de la EF para no desperdiciar valiosas observaciones. Aunque las cosas están mejorando y hoy en día a menudo se puede tener acceso a series temporales de panel (datos de panel con muy larga $T$ ), tanto en el pasado como en el presente en una medida no trivial, la mayoría de los paneles tienen una duración muy corta $T$ En tales situaciones, lo último que se quiere hacer es desperdiciar observaciones adicionales, y FD tiene también otros problemas como los mencionados anteriormente.
Dicho esto, si los datos de nivel presentan una correlación muy fuerte, probablemente se obtendrán mejores resultados con FD, por lo que FD no es inútil, pero a menudo FE es más adecuado.