Supongamos que tenemos el siguiente modelo: $$(\beta^{\star},f^{\star}) := \arg\min_{\beta,f \in \mathcal{F}} \mathbb{E}[\left(Z_i - f(X_i, E_i) - \beta^\top \boldsymbol{\tau}_{i,E_i}\right)^2|S_i^{tr} = 1],$$ donde $S_i^{tr}$ es una función indicadora para las unidades tratadas y $\mathcal{F}$ es el conjunto de todas las posibles funciones de $(X_i,E_i)$. Específicamente, estoy considerando el caso en el artículo https://arxiv.org/pdf/2403.19563. Los autores dicen que mediante el teorema de Frisch-Waugh-Lovell (FWL), podemos escribir $$\beta^{\star} = \left(\mathbb{E}[\mathbb{V}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i]|S_i^{tr} = 1]\right)^{-1}\mathbb{E}[\left(\boldsymbol{\tau}_{i,E_i} - \mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i]\right)Z_i|S_i^{tr} = 1]$$ pero no entiendo por qué y cómo esto puede resolver el problema. Mi suposición es que sirve para aislar el efecto de un conjunto de variables en ambos lados de una ecuación de regresión. Sin embargo, quiero algunas ideas matemáticas sobre esta forma de resolver este problema. Cualquier ayuda o explicación es apreciada.
Respuesta
¿Demasiados anuncios?No he leído el artículo al que haces referencia, pero creo que puedo dar una idea general de cómo funciona la metodología.
Derivación de $\boldsymbol{\beta}^*$
Para derivar la expresión de $\beta^*$, tomamos el enfoque común de FWL de "limpiar" una dimensión del ruido en la variable dependiente. En este caso, al limpiar el ruido en $Z_i$ explicado por $(X_i,E_i)$, obtenemos el componente de $Z_i$ que es ortogonal a $f(X_i,E_i)$.
Primero, el modelo bajo consideración es algo así como $$Z_i=f(X_i,E_i)+\beta^T\boldsymbol{\tau}_{i,E_i}+\varepsilon_i \qquad \text{Dado } S_i^{tr}=1$$ junto con el supuesto de exogeneidad estricta de que $\mathbb{E}[\varepsilon_i|X_i,E_i,\boldsymbol{\tau}_{i,E_i},S_i^{tr}=1]$\=0, (ver expresión (5) en el artículo).
Consideremos la expectativa condicional cuando se nos da $(X_i,E_i)$, $$\mathbb{E}[Z_i|X_i,E_i]=f(X_i,E_i)+\beta^T\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i]+\mathbb{E}[\varepsilon_i|X_i,E_i]=f(X_i,E_i)+\beta^T\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i]$$ donde la igualdad final sigue por la ley de expectativa iterada y el supuesto de exogeneidad estricta. Puede ser necesario condicionar adicionalmente en $S_i^{tr}=1$ en lo anterior, pero esto no afecta la conclusión dado que $\boldsymbol{\tau}_{i,E_i}$ es una función de $(X_i,E_i)$ solamente (ver más abajo).
Por lo tanto, obtenemos que $$\begin{align} (\beta^*,f)&=\arg\min_{\beta,f\in \mathcal{F}}\mathbb{E}[(Z_i-\mathbb{E}[Z_i|X_i,E_i]+\mathbb{E}[Z_i|X_i,E_i]-f(X_i,E_i)-\beta^T\boldsymbol{\tau}_{i,E_i})^2|S_i^{tr}=1] \\ \beta^*&=\arg\min_{\beta}\mathbb{E}[(Z_i-\mathbb{E}[Z_i|X_i,E_i]-\beta^T(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i]))^2|S_i^{tr}=1] \end{align}$$
Aplicando el resultado estándar de regresión, encontramos que $$\beta^*=(\mathbb{E}[(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])^T|S_i^{tr}=1])^{-1}\mathbb{E}[(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])(Z_i-\mathbb{E}[Z_i|X_i,E_i])|S_i^{tr}=1]$$
Esto aún no es el resultado declarado. Primero, simplificamos el denominador.
Por la ley de la expectativa iterada, podemos convertir nuestra expresión en $$\beta^*=(\mathbb{E}[\mathbb{E}[(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])^T|S_i^{tr}=1,X_i,E_i]|S_i^{tr}=1])^{-1}\mathbb{E}[(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])(Z_i-\mathbb{E}[Z_i|X_i,E_i])|S_i^{tr}=1]$$
En la página 17 del artículo, se afirma que los caminos de política son funciones determinísticas de $(X_i,E_i)$ y que por lo tanto $\boldsymbol{\tau}_{i,E_i}$ son funciones solamente de $(X_i,E_i)$. Esto significa que podemos eliminar la condición de $S_i^{tr}$ de la expectativa interna. Esto resulta en, $$\beta^*=(\mathbb{E}[\mathbb{V}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i]|S_i^{tr}=1])^{-1}\mathbb{E}[(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])(Z_i-\mathbb{E}[Z_i|X_i,E_i])|S_i^{tr}=1]$$
A continuación, simplificamos el numerador. Para hacer esto, simplemente nota que por la ley de la expectativa iterada, el numerador es la covarianza de $\boldsymbol{\tau}_{i,E_i}$ y $Z_i$ dado $(X_i,E_i)$. Como esta pregunta https://math.stackexchange.com/questions/2513153/show-that-the-covariance-is-also-mathrmcovx-y-ex-exy-exy-ey señala, podemos simplificar esta covarianza para eliminar el término $\mathbb{E}[Z_i|X_i,E_i]$. Por lo tanto, $$\beta^*=(\mathbb{E}[\mathbb{V}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i]|S_i^{tr}=1])^{-1}\mathbb{E}[(\boldsymbol{\tau}_{i,E_i}-\mathbb{E}[\boldsymbol{\tau}_{i,E_i}|X_i,E_i])Z_i|S_i^{tr}=1]$$
como se deseaba.
Utilidad de esta metodología
Este tipo de metodología de limpiar el ruido asociado con componentes más complicados es extremadamente útil, especialmente en modelos parcialmente lineales como este. Encontrar el óptimo $f$ es mucho más complicado que encontrar el óptimo $\beta$, ya que es un problema funcional en lugar de un problema estándar de optimización multivariante. Al eliminar el ruido asociado con $(X_i,E_i)$, hemos derivado una expresión cerrada sucinta para $\beta^*$ que no incluye $f$. Por lo tanto, podemos analizar $\beta^*$ sin necesidad de derivar nunca una solución cerrada para $f$, que, como se indicó, es infactible.
Este enfoque es precisamente lo que hace el estimador de Robinson (1988, referenciado en el artículo), que probablemente fue parte de la inspiración para esta metodología. Las asintóticas de este tipo de estimador para $\beta$ a menudo son excepcionalmente buenas, teniendo una tasa de convergencia de $\sqrt{n}$ sin importar la dimensión de $X_i$. En el artículo, hay más complicaciones en comparación con el estimador de Robinson, pero el enfoque es similar.
En el artículo, continúan analizando los componentes de esta expresión de $\beta^*$, lo cual sólo fue factible debido a la aplicación del teorema de FWL. Sin aplicar esta metodología, no tendrían una expresión en forma cerrada para $\beta^*$.