Parece que lo que haces no es una expansión de Taylor, sino una aplicación del teorema del valor medio (como debe ser). Si fuera una expansión de Taylor, aparte del resto, habría que evaluar el gradiente en $\beta_0$ . Con el teorema del valor medio, no hay resto, y se evalúa el gradiente en algún $\bar \beta$ que siempre se encuentra entre $\beta$ y $\hat \beta$ .
En cuanto a la cuestión de las segundas derivadas/hessianas, oficialmente sólo aparecen "temporalmente" en la derivación de la normalidad asintótica del estimador de mínimos cuadrados no lineales, pero desaparecen asintóticamente (mientras que en el estimador de máxima verosimilitud la hessiana permanece).
Aparte de eso, queremos minimizar el suma de los residuos al cuadrado por lo que, indexando las observaciones por $i$ y utilizando una notación mucho más sencilla (tendrás que ajustarla a la notación vectorial-matriz), te propones minimizar $\sum_i[u_i(\beta)]^2 = \sum_i[y_i-h(\mathbf x_i,\beta)]^2$ con respecto al vector $\beta$ con el fin de obtener un $\hat \beta$ . Así que su FOC es (suprimiendo los regresores y pasando el $i$ índice de la función $h$ )
$$\hat \beta : \sum_i\frac {\partial }{\partial \beta}[y_i-h_i(\beta)]^2 = 0 \implies \sum_i2[y_i-h_i(\hat \beta)] \frac {\partial h_i (\hat \beta)}{\partial \beta} =0, $$
Ignorar " $2$ " y aplicar el teorema del valor medio a toda la expresión para conseguir
$$\sum_i[y_i-h_i(\beta)] \frac {\partial h_i (\hat \beta)}{\partial \beta} = \sum_i[y_i-h_i(\beta_0)] \frac {\partial h_i (\beta_0)}{\partial \beta} \\ + (\hat \beta -\beta) \sum_i\left [-\frac {\partial h_i (\bar \beta)}{\partial \beta}\frac {\partial h_i (\bar \beta)}{\partial \beta}+ [y_i-h_i(\bar \beta)]\frac {\partial^2 h_i (\bar \beta)}{\partial \beta^2}\right] =0$$
Tenga en cuenta que $y_i-h_i(\beta_0) = u_i$ el error verdadero, dividir por $1/n$ y luego multiplicar por $\sqrt n$ como se le permite y reordenar para conseguir
$$\sqrt n (\hat \beta -\beta) = -\left (\frac 1n\sum_i\left [-\frac {\partial h_i (\bar \beta)}{\partial \beta}\frac {\partial h_i (\bar \beta)}{\partial \beta}\right] + \frac 1n\sum_i\left [[y_i-h_i(\bar \beta)]\frac {\partial^2 h_i (\bar \beta)}{\partial \beta^2}\right]\right)^{-1} \cdot \left(\frac 1{\sqrt n} \sum_iu_i \frac {\partial h_i (\beta_0)}{\partial \beta} \right) $$
Ahora, consideramos la normalidad asintótica, dado que la consistencia se mantiene, $\hat \beta \xrightarrow{p} \beta_0$ . Desde $\bar \beta$ se encuentra entre $\hat \beta$ y $\beta_0$ se deduce que $\bar \beta \xrightarrow{p} \beta_0$ también. Esto significa que
$$\frac 1n\sum_i\left [[y_i-h_i(\bar \beta)]\frac {\partial^2 h_i (\bar \beta)}{\partial \beta^2}\right] \xrightarrow{p} \frac 1n\sum_i\left [[y_i-h_i(\beta_0)]\frac {\partial^2 h_i (\beta_0)}{\partial \beta^2}\right] \\= \frac 1n\sum_i\left [E(u_i) E\frac {\partial^2 h_i (\beta_0)}{\partial \beta^2}\right] =0$$
porque $E(u_i) =0$ .
Así que este término se desvanece asintóticamente y nos quedamos con (anulando también los cantos negativos)
$$\sqrt n (\hat \beta -\beta) \xrightarrow{d} \left (\text {plim}\frac 1n\sum_i\left [\frac {\partial h_i (\beta_0)}{\partial \beta}\frac {\partial h_i (\beta_0)}{\partial \beta}\right] \right)^{-1} \cdot \left(\frac 1{\sqrt n} \sum_iu_i \frac {\partial h_i (\beta_0)}{\partial \beta} \right) $$
Tienes que suponer que la primera suma converge a algo definido positivo, y la segunda converge en la distribución a una variable aleatoria normal, y efectivamente haces estos supuestos (o otros más profundos que llevan a ellos). No tengo el libro específico que mencionas, pero puedes comparar lo anterior con Davidson & McKinnon "Econometric Theory and Methods"(2004) cap. 6, alrededor de la ec. $(6.30)$ .