1 votos

Prueba de la normalidad asintótica del estimador de mínimos cuadrados no lineales

Nuestro modelo es $Y=X(\beta_0)+u$ , donde $u\sim IID(0,\sigma_0^2I)$ y $X(\beta)$ es una función no lineal de la beta.

Al tratar de minimizar el $SSR(\beta)$ obtenemos el siguiente FOC:

$\nabla X(\beta)^T(Y-X(\beta))=0$ , donde $\nabla X(\beta)$ es el gradiente.

Pues bien, el FOC equivale a $n^{(-1/2)}(\nabla X(\beta)^T(X(\beta_0)+u-X(\beta))=0$ .

Si aplicamos una expansión de taylor de primer orden a cada componente $X_t(\beta)$ de $X(\beta)$ obtenemos $X_t(\beta)=X_t(\beta_0)+\nabla X(\bar\beta_{(t)})^T(\beta-\beta_0)$ , donde $\bar\beta_{(t)}$ es un punto del segmento de línea que une $\beta$ y $\beta_0$ . Este punto puede ser diferente para cada expansión de taylor que hagamos, y por eso está indexado por $t$ .

Inserción de la expansión taylor en el BDC: $n^{(-1/2)}(\nabla X(\beta)^T(u-\nabla \bar X^T(\beta-\beta_0))=0$ , donde $\nabla \bar X$ es la matriz con $\nabla X(\bar\beta_{(i)})$ como cada i-ésima columna.

¿Son correctos todos los cálculos anteriores? Lo pregunto porque en este libro los autores afirman en la página 225 que deberíamos obtener un término con segundas derivadas de $X(\beta)$ ... No entiendo por qué es esto.

Se agradece cualquier ayuda

2voto

Bernard Puntos 10700

Parece que lo que haces no es una expansión de Taylor, sino una aplicación del teorema del valor medio (como debe ser). Si fuera una expansión de Taylor, aparte del resto, habría que evaluar el gradiente en $\beta_0$ . Con el teorema del valor medio, no hay resto, y se evalúa el gradiente en algún $\bar \beta$ que siempre se encuentra entre $\beta$ y $\hat \beta$ .

En cuanto a la cuestión de las segundas derivadas/hessianas, oficialmente sólo aparecen "temporalmente" en la derivación de la normalidad asintótica del estimador de mínimos cuadrados no lineales, pero desaparecen asintóticamente (mientras que en el estimador de máxima verosimilitud la hessiana permanece).

Aparte de eso, queremos minimizar el suma de los residuos al cuadrado por lo que, indexando las observaciones por $i$ y utilizando una notación mucho más sencilla (tendrás que ajustarla a la notación vectorial-matriz), te propones minimizar $\sum_i[u_i(\beta)]^2 = \sum_i[y_i-h(\mathbf x_i,\beta)]^2$ con respecto al vector $\beta$ con el fin de obtener un $\hat \beta$ . Así que su FOC es (suprimiendo los regresores y pasando el $i$ índice de la función $h$ )

$$\hat \beta : \sum_i\frac {\partial }{\partial \beta}[y_i-h_i(\beta)]^2 = 0 \implies \sum_i2[y_i-h_i(\hat \beta)] \frac {\partial h_i (\hat \beta)}{\partial \beta} =0, $$

Ignorar " $2$ " y aplicar el teorema del valor medio a toda la expresión para conseguir

$$\sum_i[y_i-h_i(\beta)] \frac {\partial h_i (\hat \beta)}{\partial \beta} = \sum_i[y_i-h_i(\beta_0)] \frac {\partial h_i (\beta_0)}{\partial \beta} \\ + (\hat \beta -\beta) \sum_i\left [-\frac {\partial h_i (\bar \beta)}{\partial \beta}\frac {\partial h_i (\bar \beta)}{\partial \beta}+ [y_i-h_i(\bar \beta)]\frac {\partial^2 h_i (\bar \beta)}{\partial \beta^2}\right] =0$$

Tenga en cuenta que $y_i-h_i(\beta_0) = u_i$ el error verdadero, dividir por $1/n$ y luego multiplicar por $\sqrt n$ como se le permite y reordenar para conseguir

$$\sqrt n (\hat \beta -\beta) = -\left (\frac 1n\sum_i\left [-\frac {\partial h_i (\bar \beta)}{\partial \beta}\frac {\partial h_i (\bar \beta)}{\partial \beta}\right] + \frac 1n\sum_i\left [[y_i-h_i(\bar \beta)]\frac {\partial^2 h_i (\bar \beta)}{\partial \beta^2}\right]\right)^{-1} \cdot \left(\frac 1{\sqrt n} \sum_iu_i \frac {\partial h_i (\beta_0)}{\partial \beta} \right) $$

Ahora, consideramos la normalidad asintótica, dado que la consistencia se mantiene, $\hat \beta \xrightarrow{p} \beta_0$ . Desde $\bar \beta$ se encuentra entre $\hat \beta$ y $\beta_0$ se deduce que $\bar \beta \xrightarrow{p} \beta_0$ también. Esto significa que

$$\frac 1n\sum_i\left [[y_i-h_i(\bar \beta)]\frac {\partial^2 h_i (\bar \beta)}{\partial \beta^2}\right] \xrightarrow{p} \frac 1n\sum_i\left [[y_i-h_i(\beta_0)]\frac {\partial^2 h_i (\beta_0)}{\partial \beta^2}\right] \\= \frac 1n\sum_i\left [E(u_i) E\frac {\partial^2 h_i (\beta_0)}{\partial \beta^2}\right] =0$$

porque $E(u_i) =0$ .

Así que este término se desvanece asintóticamente y nos quedamos con (anulando también los cantos negativos)

$$\sqrt n (\hat \beta -\beta) \xrightarrow{d} \left (\text {plim}\frac 1n\sum_i\left [\frac {\partial h_i (\beta_0)}{\partial \beta}\frac {\partial h_i (\beta_0)}{\partial \beta}\right] \right)^{-1} \cdot \left(\frac 1{\sqrt n} \sum_iu_i \frac {\partial h_i (\beta_0)}{\partial \beta} \right) $$

Tienes que suponer que la primera suma converge a algo definido positivo, y la segunda converge en la distribución a una variable aleatoria normal, y efectivamente haces estos supuestos (o otros más profundos que llevan a ellos). No tengo el libro específico que mencionas, pero puedes comparar lo anterior con Davidson & McKinnon "Econometric Theory and Methods"(2004) cap. 6, alrededor de la ec. $(6.30)$ .

2voto

Brian Willis Puntos 5426

Basándome en la respuesta de Alecos Papadopoulos, voy a publicar una respuesta con notación matricial. Voy a cambiar la notación un poco, para que sea más fácil de entender.

El FOC es $D_\mathbf{x}( \beta )^T(\mathbf{y}-\mathbf{x}(\beta))=0$ . Esto da una función en $\beta$ , donde $D_\mathbf{x}( \beta )$ es una matriz de dim $N\times K$ con el elemento $\frac{\partial x_n}{\partial\beta_k}(\beta)$ .

Así, aplicando la expansión de Taylor (1er orden)/teorema del valor medio a cada componente del LHS de la igualdad, obtenemos

\begin{equation} D_\mathbf{x}(\beta_0)^T \mathbf{u} +\big[H_\mathbf{x}(\bar\beta)-D_\mathbf{x}(\bar\beta)^T D_\mathbf{x}(\bar\beta)\big](\hat\beta-\beta_0)=0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \text{(a)} \end{equation}

donde $H_\mathbf{x}(\bar\beta)$ representa una matriz $K\times K$ con cada elemento siendo $H_{ij}(\bar\beta_i)[\mathbf{y}-\mathbf{x}(\bar\beta_i)]$ , donde $H_{ij}(\bar\beta_i)=\begin{bmatrix} \frac{\partial^2 x_1}{\partial\beta_j\partial\beta_i}(\bar\beta_i) & \dots & \frac{\partial^2 x_n}{\partial\beta_j\partial\beta_i}(\bar\beta_i) \end{bmatrix}$ . De la misma manera, $D_\mathbf{x}(\bar\beta)^T D_\mathbf{x}(\bar\beta)$ es el Gramian de $D_\mathbf{x}(\bar\beta)$ con $ij$ -ésimo elemento $\sum_l^n\frac{\partial x_l}{\partial\beta_j}(\bar\beta_i)\frac{\partial x_l}{\partial\beta_i}(\bar\beta_i)$ .

De (a), $n^{\frac{1}{2}}(\hat\beta-\beta_0)=-\left(\frac{1}{n}H_\mathbf{x}(\bar\beta)-\frac{1}{n}D_\mathbf{x}(\bar\beta)^T D_\mathbf{x}(\bar\beta)\right)^{-1}n^{-\frac{1}{2}}D_\mathbf{x}(\beta_0)^T \mathbf{u}$ .

Sabemos por el modelo no lineal que $n^{-\frac{1}{2}}D_\mathbf{x}(\beta_0)^T \mathbf{u}=n^{-\frac{1}{2}}\sum_i^n u_i D_{\mathbf{x}i}(\beta_0)^T\rightarrow^d N\left(\underbrace{E(u_i D_{\mathbf{x}i}(\beta_0)^T)}_{=\mathbf{0}},\underbrace{\lim 1/n \sum E(u_i^2 D_{\mathbf{x}i}(\beta_0)D_{\mathbf{x}i}(\beta_0)^T)}_{\sigma_0^2 S_{D_0^TD_0}}\right)$

por un CLT.

Como sabemos que $\bar \beta\rightarrow^p \beta_0$ tenemos $\frac{1}{n}H_\mathbf{x}(\bar\beta)\rightarrow^p \left[\frac{1}{n}\sum \underbrace{E\left( \underbrace{(y_i-x_i\beta_0)}_{=u_i}\frac{\partial^2 x_1}{\partial\beta_j\partial\beta_i}(\beta_0)\right)}_{=0}\right]_{K\times K}=\mathbf{0}$ .

Del mismo modo, tenemos que $\frac{1}{n}D_\mathbf{x}(\bar\beta)^T D_\mathbf{x}(\bar\beta)\rightarrow^p S_{D_0^TD_0}$ .

Así, podemos concluir que $n^{\frac{1}{2}}(\hat\beta-\beta_0)\rightarrow^p N(\mathbf{0},\sigma_0^2 S_{D_0^TD_0}^{-1})$ .

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X