53 votos

Medidas de similitud de las series temporales

Supongamos que tengo dos series temporales $X$ y $Y$ de los precios de las acciones. ¿Cómo puedo medir la "similitud" de $X$ y $Y$ ?

(Estoy siendo deliberadamente vago, ya que no tengo una aplicación particular, y tengo curiosidad por los diferentes enfoques en general. Pero supongo que puedes imaginar que hay algunas acciones x que no quiero negociar directamente, por la razón que sea, así que quiero encontrar una acción similar y para comerciar en su lugar).

Un método es tomar una correlación de Pearson o Spearman. Para evitar problemas de correlación espuria (ya que las series de precios probablemente contienen tendencias), debería tomar estas correlaciones en el diferenciado o las series de retorno (que deberían ser más estacionarias).

¿Cuáles son otros métodos de similitud y sus ventajas e inconvenientes?

0 votos

Si alguna de las respuestas ha sido útil, por favor, acéptela - ¡Gracias!

30voto

penti Puntos 93

Una de mis favoritas es la generalización de la correlación: Correlación de la distancia (dCor)

Hay varias razones para ello:

  1. Generaliza la correlación clásica (es decir, lineal) en el sentido de que la linealidad es un caso especial. Da lecturas idénticas para la dependencia lineal.
  2. Existen análogos para la varianza, la covarianza y la desviación estándar, por lo que estas identidades se mantienen: $$\operatorname{dVar}^2_n(X) := \operatorname{dCov}^2_n(X,X)$$ y $$\operatorname{dCor}(X,Y) = \frac{\operatorname{dCov}(X,Y)}{\sqrt{\operatorname{dVar}(X)\,\operatorname{dVar}(Y)}}$$
  3. $dCor=0$ implica una verdadera independencia, todas las demás lecturas implican una dependencia lineal o no lineal - Compare las siguientes lecturas, la primera correlación lineal ( fuente ):

enter image description here

y la correlación de la distancia ( fuente ):

enter image description here

Cuidado, simplificación excesiva por delante: La razón por la que muestra este comportamiento es básicamente que es la correlación de la funciones características de las variables aleatorias, es decir, las transformaciones de Fourier de las funciones de densidad de probabilidad, es decir, una rotación del dominio del tiempo al dominio de la frecuencia. Por lo tanto, no sólo se comprueba la dependencia lineal, sino básicamente todas las dependencias funcionales que pueden ser representadas por la función exponencial compleja (periódica). Para obtener una intuición, lea también este artículo: Aquí .

Existe una aplicación en R .

0 votos

¿Conoce alguna buena referencia donde se aplique este concepto a los datos financieros? Además el enlace "neustats.com" no funciona (al menos para mí). Gracias.

0 votos

@Richard: No, no tengo ningún ejemplo en este momento, pero pienso utilizarlo en la fecha financiera yo mismo. Efectivamente, el artículo parece haber desaparecido. Está archivado aquí: archive.is/7TVzZ

0 votos

Gracias por el enlace - en caso de que publiques algo sobre tu trabajo en dCor estaré encantado de leer más.

29voto

Greg Hurlman Puntos 10944

Supongo que estás usando retornos (o retornos logarítmicos) en lugar de los precios reales de las acciones . En la práctica, también puede querer suavizar los datos utilizando una media móvil.

Hay varios coeficientes de correlación:

\begin{equation} r = \frac{\sigma_{x,y}}{\sigma_x \sigma_y} \end{equation}

  • de Spearman $\rho$ - utiliza el rango de cada conjunto de datos (índice de matriz si los datos han sido ordenados); menos sensible a los valores atípicos en la muestra ya que no es paramétrico:

\begin{equation} d_i = x_i - y_i \end{equation}

\begin{equation} \rho = 1 - \frac{6\Sigma d_{i}^{2}}{n(n^{2}-1)} \end{equation}

  • Kendall's $\tau$ - también se basa en la clasificación, pero representa la probabilidad de que los dos conjuntos de datos estén en el mismo orden frente a la probabilidad de que estén en órdenes diferentes:

\begin{equation} \tau = \frac{C - D}{\frac{1}{2} n(n - 1)} \end{equation}

\begin{equation} \Gamma = \frac{C - D}{C + D} \end{equation}


$C$ es el número de pares concordantes y $D$ es el número de pares discordantes.

6voto

TomG Puntos 2213

Puedes mirar la cointegración.

0 votos

Supongo que esto sólo funcionaría para inversiones a largo plazo.

0 votos

Yo también, pero no estoy completamente seguro de ello. Me gustaría saber si la gente piensa que esto podría funcionar para la inversión a corto plazo si la cointegración se encuentra en los datos de alta frecuencia.

0 votos

Alguna vez he hecho algo en esta línea con el interés abierto y los futuros, pero sólo hasta el paso de decir que el interés abierto y los precios de los futuros están cointegrados, y que algunas barreras del interés abierto podrían ser útiles como señal de trading. En este sentido diría que uno no tiene realmente una medida de similitud si la cointegración está presente, sino un indicador de una relación de reversión de la media que funciona.

4voto

aceinthehole Puntos 1460

Si utiliza un modelo Box-Jenkins, mire esta investigación que utiliza un marco ARIMA para definir clusters, y luego mide la similitud de las series temporales mediante un coeficiente cepstral basado en los parámetros autorregresivos.

http://www.csee.umbc.edu/~kalpakis/homepage/papers/ICDM01.pdf

3voto

Gavin McTaggart Puntos 1358

Se puede utilizar la coherencia wavelet, que es una medida de similitud variable en frecuencia y en tiempo de dos series temporales $X_t$ y $Y_t$ comparando los coeficientes de la transformada wavelet $\int_{-\infty}^{\infty} f(t) \psi_{u,s}(t)dt$ (en términos muy poco técnicos). Puedes utilizar la diferencia de fase para estudiar la relación plomo-desfase.

El beneficio sería:

  • No requiere estacionariedad en $f(t)$ .
  • Detecta el comovimiento dependiente de la frecuencia. Si el comportamiento especulativo impulsa los rendimientos de frecuencia media-alta y el comportamiento de inversión impulsa los rendimientos de frecuencia baja, entonces no hay razón para que el comovimiento en una frecuencia requiera el comovimiento en otra frecuencia.
  • Puede acoplar el análisis con un análisis de diferencia de fase entre las dos transformadas de ondícula, causalidad de Granger dependiente de la frecuencia y otras herramientas.

Otro método serían las correlaciones de cópula y las probabilidades condicionales de cópula.

  • Estos pueden variar en el tiempo a través de las paramaterizaciones de Patton (2006) y las versiones más recientes del SCAR y no creo que los supuestos del DGP sean muy estrictos.
  • Puedes estudiar $\mathbb{P}(X < q | Y < q)$ que es una medida de comovimiento que no ofrecen las medidas de correlación estándar.
  • Puede obtener correlaciones de cola variables en el tiempo si le preocupan los eventos de cola.

También las correlaciones cuantílicas:

  • Sigue siendo un documento de trabajo.
  • Correlación de una variable y otra, condicionada a que la otra esté en una región extrema de la distribución.

También hay medidas de correlación extremas dentro de las distribuciones de pareto generalizadas. ...Aunque no estoy seguro de cómo funciona esto.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X