Estoy realizando un análisis de series temporales multivariado y necesito lidiar con algunos valores atípicos. Estoy considerando utilizar una winsorización móvil (por ejemplo, eliminar cualquier valor por encima del percentil 99.5 y reemplazarlo con el valor del percentil 99.5). El período de retroceso comenzaría en 2 años y seguiría expandiéndose a medida que avanzo en la serie temporal. ¿Es esta una forma apropiada de manejar los valores atípicos? Tengo algunos movimientos de seis sigma en un conjunto de datos de más de 3,000.
Respuesta
¿Demasiados anuncios?¡La winsorización está bien, pero analiza cuidadosamente tus datos y piensa en la naturaleza de tus valores atípicos!
Supongo que eres consciente de esta respuesta aquí:
[...] ¡Así que tienes que tener mucho cuidado y verificar dos veces todos los puntos de datos que eliminas por cualquier método disponible! [...]
Los datos financieros suelen estar sujetos a valores atípicos. En muchos análisis estadísticos, estos puntos de datos pueden ejercer una influencia indebida en los resultados, lo que hace que los resultados no sean fiables. Comúnmente, los investigadores de la valoración empírica de activos suelen adoptar un enfoque ad hoc para tratar con valores atípicos (en lugar de varios métodos estadísticos diseñados para evaluar el efecto de los valores atípicos).
Winsorización se realiza ajustando los valores de una variable $X_n$ con $n$ observaciones, que se encuentran en el percentil superior $h$ de todos los valores de $X$, al percentil $(100-h)$ de $X$. De manera similar, los valores de $X$ en el percentil inferior $l$ de los valores de $X$ se establecen en el percentil $l$ de $X$.
Truncamiento es muy similar a la winsorización, excepto que en lugar de ajustar los valores de $X$ por encima de $Pctl_h(X)$ al valor de $Pctl_h(X)$, los establecemos como datos faltantes o no disponibles. Del mismo modo, los valores de $X$ que son inferiores a $Pctl_l(X)$ se consideran datos faltantes.
Bali/Engle/Murray (2016) (p. 6) señalan:
La pregunta de cuándo usar la winsorización o el truncamiento es difícil de responder porque algunos valores atípicos son legítimos, mientras que otros son errores en los datos. Desde un punto de vista estadístico, se podría argumentar que el truncamiento debe usarse cuando se cree que los puntos de datos a truncar fueron generados por una distribución diferente a los puntos de datos que no deben ser truncados. La winsorización quizás sea más preferible cuando se cree que los puntos de datos extremos indican que los valores reales de la variable dada para las entidades cuyos valores se van a winsorizar son muy altos o muy bajos, pero quizás no tan extremos como indican los valores calculados. La mayoría de los investigadores de valoración de activos empírica eligen utilizar la winsorización en lugar del truncamiento. Sin embargo, si los resultados de un análisis se ven sustancialmente afectados por esta elección, deben ser vistos con escepticismo.