Creo que estás mezclando los residuos frente a los estandarizado residuales (media 0 y varianza unitaria) y/o la distribución del estudiante frente a la estandarizado distribución de los estudiantes.
El grado de libertad que se obtiene de la estimación MLE es el que que debe utilizar en la fórmula de Var.
El estandarizado modelo Garch del estudiante es:
$Y_{t} = \mu_{t} + \sigma_{t} z_{t} \qquad z_{t} \sim t(0,1,v)\qquad, v>2$
donde $z_{t}$ son los estandarizado innovaciones de los estudiantes (véase la formulación original de Bollerslev). Siempre es necesario tener innovaciones estandarizadas ya que la varianza condicional de los residuos $ (\epsilon_{t}= \sigma_{t} z_{t})$ debe ser igual a $\sigma_{t}^{2}$ : $Var(\epsilon_{t}) = \sigma_{t}^{2}$ sólo si $Var(z_{t})=1$
Al ajustar el modelo se obtienen los residuos : $ \epsilon_{t}= \sigma_{t} z_{t}$
Entonces las innovaciones t estandarizadas se recuperan mediante :
$z_{t} = \epsilon_{t} \sigma_{t}^{-1} $
La estimación MLE se basa en que esas innovaciones son IID. La estimación de loglikelihood devuelve los parámetros arch+garch y los parámetros de la distribución del término de error : en este caso $v$
Por último, el VaR viene dado por :
$Var_{t} = \mu_{t} + \sigma_{t} st_{\alpha,v} $
con $st_{\alpha,v} $ siendo el cuantil izquierdo en $ \alpha $ para el estandarizado distribución t con número (estimado) de grados de libertad ( $v$ ).
Sin embargo, si utiliza un no -para expresar el VaR, y como se sabe que la varianza de la distribución t es : $ Variance(f_{tdist})=\sigma_{tdist}^{2}= \frac{v}{v-2} $ se puede expresar el VaR reescalando la distribución del alumno como
\begin{equation} \begin{split} Var_{t} & = \mu_{t} + \sigma_{t} st_{\alpha,v} \\ & = \mu_{t} + \sigma_{t} \left( t_{\alpha,v } \sigma_{tdist}^{-1} \right)\\ & = \mu_{t} + \sigma_{t} \left( t_{\alpha,v } \left[\sqrt\frac{v}{v-2} \right]^{-1} \right)\\ & = \mu_{t} + \sigma_{t} t_{\alpha,v } \sqrt\frac{v-2}{v} \\ \end{split} \end{equation}
Tenga en cuenta que $st_{\alpha,v}$ la distribución t estandarizada es diferente de $t_{\alpha,v}$ la distribución t no estandarizada
La estimación MLE se basa en $st_{\alpha,v}$ de la estimación se obtiene $v$ y luego el factor $ \sqrt\frac{v-2}{v} $ es sólo una operación de reescalado que no participa en la estimación del MLE.
En Matlab se puede utilizar la función tLocationScaleDistribution con $\mu =0$ y $\sigma = 1 $ .