5 votos

¿Cómo eliminar valores atípicos en series temporales financieras?

Tengo una serie de series temporales; necesito limpiarlas antes de modelar. Hasta ahora solo conozco el método de "filtrado/suavizado": - Ejemplo: metodología de media móvil (filtrar los datos con una media móvil (filtro), luego obtener un ruido (serie menos filtro) y eliminar los puntos de datos que corresponden a un ruido alto (es decir, con un umbral específico):

Ejemplo (simple) del método de filtro de media móvil con tres valores atípicos :

Datos y filtro: introducir descripción de la imagen aquí Ruido y umbral : introducir descripción de la imagen aquí Datos limpios : introducir descripción de la imagen aquí

¿Recomiendas un filtro específico? ¿conoces un mejor método automático?

10voto

penti Puntos 93

¡Espera un momento! Creo que es de suma importancia primero examinar si los puntos de datos son verdaderos valores extremos, es decir, ruido que está contaminando los datos, ¡o quizás las piezas más importantes de la serie temporal!

Por ejemplo, cuando se observan los datos del mercado de valores de Estados Unidos de los últimos 50 años y se eliminan solo las diez mayores movimientos porque son valores extremos, ¡se obtiene una serie temporal completamente diferente!

Ver página 276 de El Cisne Negro de Nassim Taleb

¡Así que tienes que ser extremadamente cuidadoso y verificar dos veces todos los puntos de datos que elimines por cualquier método disponible!

En general, lo que consideras un valor extremo también depende en gran medida del modelo que estás utilizando. Así que lo que parece ser un valor extremo en un modelo (por ejemplo, un modelo lineal) es parte del paquete en un modelo más complejo (por ejemplo, un modelo no lineal). Por lo tanto, también es cuestión de experiencia cómo proceder.

En resumen, creo que no hay una respuesta fácil a tu pregunta. Un buen punto de partida puede ser el primer capítulo del siguiente libro nuevo (2013) que está disponible en línea:

Análisis de valores extremos por C. Aggarwal

En una nota más práctica, puedes usar el paquete de pronóstico en R en su nueva versión 5.0 de Rob Hyndman. La nueva versión acaba de ser lanzada (27/01/2014) y tiene funcionalidades mejoradas para el preprocesamiento de series temporales y valores extremos:

http://robjhyndman.com/hyndsight/forecast5/

3voto

user6189 Puntos 26

Existen muchas técnicas para la detección de valores atípicos. Los separo en técnicas Globales y Locales.

-Una de las técnicas Globales que suelo utilizar es la Winsorización, que consiste en reemplazar los valores extremos en la distribución de densidad por el valor correspondiente a cierto cuantil. Por ejemplo, reemplazas todos los valores por debajo del cuantil 5% por este, y todos los valores por encima del cuantil 95% por este. Esta técnica podría ser útil si deseas excluir cierto período, digamos un período de crisis, de tus datos para tener solo el período regular.

-Para técnicas locales, recomendaría el Factor de Valor Atípico Local, lo descubrí recientemente, y creo que es una buena técnica para lidiar con algunos eventos inesperados en el mercado para un día singular, o para problemas de datos de los proveedores de datos.

Para los métodos automáticos, el primero es muy fácil de implementar, solo necesitas especificar el umbral del cuantil, el segundo es un poco más complicado pero hay algunas implementaciones en R que podrían ayudar!

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X