Puede comparar las pérdidas con cada modelo y determinar que el "mejor" modelo es el que tiene las menores pérdidas. En muchos casos, en los estudios de mayor envergadura, los resultados pueden ser ambiguos cuando uno o más modelos se ven favorecidos por diferentes funciones de pérdida. Por lo tanto, queremos saber si podemos construir pruebas estadísticas que evalúen la importancia del rendimiento, basándose en las diferencias de pérdidas entre los modelos . Resulta que sí podemos, y se ha estudiado mucho en el ámbito académico.
Análisis de comparación de previsiones:
Cuando queremos hacer un análisis de comparación de previsiones, hay una cosa que queremos hacer: probar si la diferencia de previsiones es estadísticamente diferente de cero. Si dejamos que $L(\theta_t, \Sigma_{it})$ sea su función de pérdida (piense en QLIKE o MSE) con $\Sigma_{it}$ sea su estimación de covarianza para el modelo $i$ en el momento $t$ y $\theta_t$ es su proxy robusto ( ya que la volatilidad es latente ). Entonces la diferencia de pérdidas puede definirse como $d_{ij,t}=L(\theta_t, \Sigma_{it}) - L(\theta_t, \Sigma_{jt})$ con la correspondiente hipótesis nula construida:
$$H_0: \quad \mathbb{E}\left[d_{ij,t}\right] = 0, \qquad \forall \: t.$$
Para construir el estadístico de la prueba, necesitamos el error estándar, que normalmente se encuentra haciendo un bootstrap de las diferencias de pérdidas y luego calculando el error estándar del bootstrap ( Intuitivamente y bajo suficiente regularidad, el error estándar del bootstrap será cercano al error estándar de la población ). Tenga en cuenta que la hipótesis nula (compuesta) puede diferir ligeramente entre cada método de comparación.
Este es el punto de partida de muchas pruebas de comparación de previsiones, incluida la conocida prueba de Diebold-Mariano, que es una prueba de comparación de previsiones por pares. Existe una plétora de métodos de comparación de previsiones, la mayoría de los cuales se centran en la comparación de múltiples previsiones fuera de la muestra a la vez. Antes de enumerar la mayoría de ellos, quiero que considere la posibilidad de leer dos artículos que investigan diferentes modelos (medidas) de volatilidad utilizando métodos de comparación de previsiones :
-
Hansen, Peter R., y Asger Lunde (2005). "Una comparación de previsiones de modelos de volatilidad: ¿hay algo que supere a un GARCH (1, 1)?". . En este artículo, los autores utilizan múltiples análisis de comparación de previsiones para determinar si los modelos de tipo ARCH superan a un modelo GARCH(1,1) simple. Le proporcionará una gran perspectiva sobre el uso de los métodos de comparación de previsiones.
-
Liu, Lily Y., Andrew J. Patton y Kevin Sheppard (2015). "¿Hay algo que supere la RV de 5 minutos? Una comparación de medidas realizadas a través de múltiples clases de activos". . En el mismo sabor del artículo anterior, Liu et al. comparan la varianza realizada de 5 minutos con un conjunto de medidas alternativas realizadas de volatilidad intradía en un amplio conjunto de activos. Este artículo también utiliza diversos métodos de comparación de previsiones múltiples, incluida la prueba de Diebold-Mariano. El artículo es muy aplicado, pero sin duda despertará su interés.
La base teórica de muchos de los métodos de comparación de previsiones es bastante extensa y difícil de comprender. Por lo tanto, la gente tiende a elegir algunos de los métodos y llegar lejos entendiendo la intuición y los resultados que hay detrás de ellos. De los muchos artículos que he leído, la prueba Diebold-Mariano es el favorito para la comparación por pares y El conjunto de confianza del modelo para la comparación de previsiones múltiples.
Listado de diferentes métodos de comparación de previsiones:
-
Prueba Diebold-Mariano: Diebold, Francis X., y Robert S. Mariano (2002). " Comparación de la precisión predictiva. " Hicieron un papel actualizado respondiendo a su documento original detallando el uso y abuso de la prueba.
-
Prueba de las blancas (Reality check o RC): White, Halbert (2000). " Una prueba de realidad para el espionaje de datos. " Como se describe en el primer artículo, la prueba RC "carece" de potencia y le cuesta distinguir entre los pronósticos "buenos" y los "malos".
-
Capacidad de predicción superior de Hansens (SPA): Hansen, Peter Reinhard (2005). " Una prueba de capacidad de predicción superior. " Este método de comparación de previsiones es más robusto ante la inclusión de previsiones deficientes en contraste con RC .
-
Prueba Romano-Wolf: Romano, Joseph P., y Michael Wolf (2005). " Pruebas múltiples escalonadas como un espionaje de datos formalizado. "
-
El conjunto de confianza del modelo (MCS) Hansen, Peter R., Asger Lunde y James M. Nason (2011). " El conjunto de confianza del modelo. " Intuitivamente, esta prueba de comparación le ofrece un conjunto de modelos dentro de un determinado nivel de "confianza" en el que los modelos seleccionados son "iguales" en capacidad de predicción fuera de la muestra. En mi opinión, este es el método de comparación de previsiones más complicado de entender desde una perspectiva teórica. En este sentido, los autores también hicieron otro documento que se presenta como una "guía" sobre el uso del método MCS y cómo elegir los mejores modelos. En este caso, también sientan una base intuitiva para la prueba.
-
SPA Multi-Horizonte y MCS: R. Quaedvlieg (2020), " Comparación de previsiones multihorizonte. " En este artículo reciente, R. Quaedvlieg proporciona extensiones de las pruebas SPA y MCS para comparar conjuntamente previsiones de horizontes múltiples. Además, concluye que las pruebas conducen a resultados más coherentes. La comparación de las previsiones del modelo en muchos horizontes individuales de forma independiente, nos dará implícitamente un problema de pruebas múltiples que conduce a más errores de tipo 1, es decir, falsos rechazos de la nulidad ( lo que implica que los modelos pueden diferir significativamente en un determinado horizonte de previsión ). Por ello, en muestras finitas es probable que un modelo mal especificado supere incluso al modelo poblacional en uno de los muchos horizontes que se pueden considerar. La comparación conjunta de todos los horizontes nos protege de este problema. Las pruebas multihorizonte no se limitan a la economía, sino que también pueden utilizarse para comparar las previsiones climáticas en diferentes horizontes, etc.
No soy en absoluto un experto en los métodos de comparación de previsiones detallados anteriormente. Sin embargo, se puede llegar lejos si se entiende la intuición que hay detrás de los métodos ( elija uno o dos ) y cómo interpretar el resultado. No es necesario comprender los resultados teóricos de las pruebas para poder utilizarlas. Espero que esto ayude .