El famoso artículo de Newey 94 sobre la convergencia asintótica de los estimadores semiparamétricos con un primer paso no paramétrico y un segundo paramétrico, http://www.jstor.org/stable/2951752 establece que no importa la tasa de convergencia del estimador no paramétrico particular, siempre que se cumplan una serie de supuestos de regularidad entonces el estimador del segundo paso es $\sqrt{N}$ convergente a una distribución normal. Aquí estoy pidiendo la intuición por qué este un proceso estocástico complicado, digamos Naradaya-Watson distribución asintótica converge a esta distribución agradable.
Respuesta
¿Demasiados anuncios?La demostración habitual del clásico Teorema Central del Límite (CLT), creo que proporciona la mayor intuición que existe sobre este fenómeno. Y no es una gran intuición de todos modos.
Esta prueba "habitual" es a través de funciones características.
Consideremos una variable aleatoria $X$ con la función característica
$$\phi_X(t) = E(e^{i tX}), \;\;\;i^2 = -1$$
Ahora considere su versión centrada y escalada
$$Y = \frac {X-\mu}{\sigma} = \frac 1{\sigma}X - \frac {\mu}{\sigma}$$ .
con $E(Y) = 0 , {\rm Var}(Y) E(Y^2)= 1$ . Además, $Y$ es la suma de dos variables aleatorias independientes, la segunda degenerada (siendo una constante, y por tanto también independiente de todo). Así, por las propiedades de la función característica de la suma de dos variables aleatorias independientes
$$\phi_Y(t) = \phi_Y\left(\frac 1{\sigma}t\right)\cdot e^{-i\frac {\mu}{\sigma}t} = E\left[\exp{\left\{it\frac 1{\sigma}X - i\frac {\mu}{\sigma}t\right\}}\right] = E(e^{i tY})$$
Tomemos ahora la expansión de Taylor de segundo orden de $\phi_Y(t)$ con respecto a $Y$ y con centro de expansión $E(Y) =0$ : $$\phi_Y(t) = E\left[e^{it\frac 1{\sigma}\cdot 0} + ite^{it\cdot 0}Y + \frac 12 i^2t^2e^{it\cdot 0}Y^2 + o(t^2)= \right]$$
El primer término es cero, el segundo término desaparece porque $E(Y) =0$ y para el tercer término utilizamos $i^2=-1, E(Y^2) =1$ para llegar a
$$\phi_Y(t) = 1 - \frac {t^2}2 + o(t^2)$$
El "fenómeno" ya está aquí porque
$$ \frac {t^2}2 = \ln MGF_{Z}(t),\;\; Z\sim {\rm N}(0,1)$$
En palabras: La función característica de cualquier variable aleatoria con media y varianza finitas que está centrada y escalada en consecuencia, tiene una fuerte conexión con la función generadora de momentos de la distribución Normal Estándar ( $\ln MGF_{Z}(t)$ es en realidad la función generadora de cumulantes).
¿Cómo puede ocurrir esto? ¿Hemos descubierto aquí una "ley de la naturaleza", esta conexión fundamental de los diferentes "tipos de comportamiento incierto" con el tipo específico etiquetado como "distribución normal estándar", o es sólo nuestro sistema matemático, a través del cual hemos modelado esta cosa llamada "incertidumbre", produciendo alguna conexión artificial que tal vez revela algún aspecto de su propia estructura interna, pero no tiene nada que ver con el mundo real ?
Completemos primero la prueba del CLT: consideremos la variable aleatoria $$Z_n = \frac 1{\sqrt{n}}\sum_{i=1}^nY_i$$
donde el $Y_i$ se distribuyen de forma independiente e idéntica. De nuevo por las propiedades de la función característica tenemos
$$\phi_{Z_n}(t) = \prod_{i=1}^n\phi_{Y}(t\sqrt{n}) = \Big[1 - \frac {t^2}{2n} + o(\frac {t^2}{n})\Big]^n \xrightarrow{n\rightarrow \infty} e^{-t^2/2} = \phi_{Z}(t),\;\; Z\sim {\rm N}(0,1)$$
y así
$$Z_n \xrightarrow{d} {\rm N}(0,1)$$
...y ahora hemos llegado a la distribución normal estándar propiamente dicha. Y esto es una ley de la naturaleza: matemáticas aparte, simulaciones por ordenador aparte, los datos del mundo real validan sistemáticamente este resultado. Así que no hay más "¿por qué?" aquí -como no puede ser con ninguna ley de la naturaleza-. Simplemente las descubrimos -y tenemos la sensación de ganar una intuición añadida cuando descubrimos las interconexiones entre estas leyes (pero esto no es realmente una intuición, es sólo más descubrimientos).
Por supuesto, este es el primer y más simple caso, en una larga línea de Teoremas Centrales de Límite que cada vez tratan con funciones más complicadas, interdependientes, de variables aleatorias, procesos estocásticos, etc. como el mencionado en el OP. Y también están las generalizaciones de CLT a distribuciones estables y no sólo la normal, y está la teoría del valor extremo... todos estos son aspectos diferentes de la misma conclusión: que el comportamiento colectivo (incluso en el sentido simple de agrupado comportamiento) es mucho más homogéneo que los comportamientos individuales, aunque sólo sea el conjunto de estos últimos -y este debe ser uno de los resultados más contraintuitivos que se han encontrado-.
P.D. Un inspirado intento de intuición ascendente lo proporciona @whuber en este hilo de Cross Validated: https://stats.stackexchange.com/questions/3734/what-intuitive-explanation-is-there-for-the-central-limit-theorem