Mi objetivo es encontrar racimos de las poblaciones. La matriz de "afinidad" definirá la "cercanía" de los puntos. Esta artículo ofrece un poco más de información. El objetivo final es investigar la "cohesión" dentro de los ETFs y entre ETFs similares en busca de posibilidades de arbitraje. A la larga, si todo va bien, esto podría conducir a la creación de una herramienta para la modelización o valoración del riesgo. Actualmente el proyecto se encuentra en la fase de propuesta/POC, por lo que los recursos son limitados.
He encontrado este Python ejemplo para la agrupación con los relacionados docs . El código utiliza correlaciones de la diferencia de precios de apertura y cierre como valores para la matriz de afinidad. Yo prefiero utilizar la media de los rendimientos y la desviación estándar de los mismos. Esto se puede visualizar como un espacio bidimensional con la media y la desviación estándar como dimensiones. En lugar de la correlación, calcularía la "distancia" entre los puntos de datos (acciones) y rellenaría la matriz de afinidad con las distancias. La elección de la función de distancia sigue siendo una cuestión abierta. ¿Es válido calcular la distancia entre los puntos de datos en lugar de las correlaciones?
Si es así, ¿puedo ampliar este enfoque con más dimensiones, como la rentabilidad de los dividendos o ratios como el precio/beneficio?
Realicé algunos experimentos con diferentes números de parámetros y diferentes funciones de distancia que dieron como resultado diferentes números de clusters que van desde 1 hasta más de 300 para una muestra de 900 acciones. La muestra consiste en valores de gran y mediana capitalización que cotizan en la Bolsa de Nueva York y en el NASDAQ. ¿Existe una regla general para el número de conglomerados que se debe esperar?
4 votos
@Tal: ¿Cómo puedo votar negativamente el comentario de Tal? No es la primera vez que veo que Tal publica un comentario ofensivo. ¿Puede alguien detenerlo? I AMOR este sitio pero se siente torturando viendo los comentarios tan subjetivos y ofensivos de Tal. Por cierto, Navi, creo que sé lo que intentas hacer y también creo que es válido.
0 votos
@Alchemist déjame intentar reformularlo. Navi, ¿puedes aclarar cuál es el objetivo del procedimiento de agrupación? ¿Para qué vas a utilizar estos clusters? ¿Es un modelo de riesgo, una previsión de rendimientos, la construcción de una cartera, etc.? Eso marcará una gran diferencia a la hora de determinar si es válido o no. Además, el enfoque de sustituir una matriz de correlación (¿afinidad?) por una función de distancia más general está bien fundamentado (véase Mahalanobis ), aunque no estoy seguro de lo que propones exactamente, ¿puedes aclararlo con una ecuación?
3 votos
@Alchemist: no se pueden bajar los comentarios, pero sí bandera de los mismos. Ver el PREGUNTAS FRECUENTES .