En referencia a AFML (libro "Advances in Financial Machine Learning" de Marcos López de Prado). ¿Son singularidad de la muestra y peso de la muestra ¿apuntan hacia lo mismo? No entiendo el término. Gracias si alguien puede ayudarme.
Respuesta
¿Demasiados anuncios?Muy buena pregunta.
Si miras sklearn ajustar() puede encontrar pesos_de_muestra parámetro que indica al modelo a qué muestras debe prestar más atención o dar más peso cuando el modelo se ajusta.
La singularidad de las muestras es un poco diferente. En primer lugar, la unicidad de la muestra se utiliza para calcular las ponderaciones de la muestra (para las ponderaciones de la muestra basadas en el rendimiento, dividimos abs(rendimiento de la muestra) / unicidad de la muestra). Sin embargo, el resto del capítulo Pesos de la muestra explica al lector cómo mejorar el algoritmo bagging (utilizado en modelos ensemble como BaggingClassifier, RandomForestClassifier) de forma que, en lugar de elegir aleatoriamente las muestras utilizadas para entrenar los estimadores en el modelo ensemble, el algoritmo elija la más exclusiva. Esto se denomina Bootstrapping secuencial . Así que este algoritmo (si se aplica) cambia cómo el modelo se ajusta.
NB: Soy el colaborador de un paquete de código abierto mlfinlab ( https://github.com/hudson-and-thames/mlfinlab ) que implementa los conceptos descritos en el libro AFML. Tenemos un modelo ensemble SequentiallyBootstrappedBaggingClassifier/Regressor que extiende el modelo BaggingClassifier de sklearn con Sequential Bootstrapping en lugar de muestreo aleatorio.
Nuestro equipo de investigación también tiene un blog donde discutimos varios problemas de aprendizaje automático financiero y cómo mlfinlab se puede utilizar para resolverlos. En cuanto a su pregunta, está la entrada del blog sobre unicidad de la muestra y Bootstrapping secuencial ( https://hudsonthames.org/bagging-in-financial-machine-learning-sequential-bootstrapping-python/ )