Cuando se utiliza un núcleo gaussiano para estimar la distribución de una distribución gaussiana $x$ el ancho de banda que minimiza el error cuadrático medio integrado es:
$$h=\left(\frac{4 \hat{\sigma}^5}{3n}\right)^{\frac{1}{5}} $$
donde $\hat{\sigma}$ es la desviación estándar estimada de $x$ y $n$ es el tamaño de la muestra. He visto la derivación de este resultado.
Soy consciente de que hay ajustes que utilizan el rango intercuartil en lugar de $\hat{\sigma}$ y también que utilizan $0.90$ en lugar de $1.06=\left(\frac{4}{3}\right)^{\frac{1}{5}}$ . Soy consciente de que estos ajustes están motivados por el hecho de que $x$ puede no estar distribuido normalmente y puede estar sesgado.
No he visto una justificación matemática de estos ajustes ni una explicación de por qué son "óptimos". Los ajustes me parecen arbitrarios. ¿Existe una justificación matemática de los mismos?