Influido por el libro Advances in Machine learning de De Prado, me he propuesto construir las barras de dólares (en las que cada barra representa una cantidad determinada de dólares de transacciones en el valor) que él respalda como una estructura de datos superior a las barras convencionales basadas en el tiempo, sobre todo por sus propiedades más estacionarias, iid, y estadísticamente útiles.
Por desgracia, no dispongo de los datos de ticks necesarios para poner en práctica la idea.
Sin embargo, tengo una abundancia de datos de 1 minuto, lo que me hace preguntarme cuál es el método más fiel que podría utilizar para aproximar las verdaderas barras de dólares.
Mi plan es:
- tomar la media del OHLC de cada barra de minutos,
- multiplícalo por el volumen de esa barra,
- asignar ese valor en dólares a la barra,
- y, a continuación, comenzar a agregar las barras hasta el importe en dólares deseado desde el inicio de la serie temporal original hasta su final.
Me doy cuenta, sin embargo, de que esto podría introducir una cantidad de dólares ligeramente superior o inferior a la prevista para cada barra, dependiendo de esa cantidad de dólares prevista para cada barra. ¿Es este enfoque problemático o indigno, dadas las intenciones de De Prado para la barra de dólares? ¿Hay una forma mejor de hacerlo?