La respuesta de @Baysiean proponía calcular una media ponderada de las funciones de distribución empírica por periodo $EDF_t(w)$ (donde $w$ es el valor en el soporte de una variable aleatoria $W$ ), un valor en el que evaluamos el $EDF_t$ de $W$ . Veamos lo que puede significar.
El $EDF_t(w)$ es decir, para cada valor $w$ en el soporte,
$$EDF_t(w) = \frac 1{N_t} \sum_iI\{w_{t,i} \leq w\}.$$
Aquí $w_{t,i}$ es un punto de datos de la muestra en el $t$ -en el período. La media ponderada propuesta es
$$\overline {EDF}(w) = \sum_t \frac{N_t}{N} EDF_t(w) = \sum_t \frac{N_t}{N} \frac 1{N_t} \sum_iI\{w_{t,i} \leq w\} = \frac 1 N \sum_t \sum_iI\{w_{t,i} \leq w\},$$
que no es más que la media agrupada de todos los datos disponibles y de todos los periodos de tiempo.
En otras palabras, tomar la media ponderada en este caso, resulta ser equivalente a considerar una media agrupada (no ponderada) sobre todas las muestras del período de tiempo, algo que, para ser significativo para inferencia (aparte de ser algo puramente descriptivo estadística para la muestra específica desprovista de significado económico/causal/estructural), debe basarse en el supuesto de que las funciones de distribución son idénticas periodo a periodo. Pero "tomar la media ponderada" parece permitir diferentes distribuciones, lo que no es el caso, si, de nuevo, uno está interesado en la inferencia económica.
Lo que sería realmente interesante es modelar esta tarea de estimación como una tarea bayesiana secuencial.
0 votos
Se puede representar la fdc empírica sobre todos los datos agrupados (agrupados a lo largo de los años). Estaría bien comprobar si la CDF de un año concreto es la misma que la CDF agrupada.
0 votos
¡Muchas gracias!