El preprocesamiento de datos suele ser un paso muy importante (si no el más importante) en un algoritmo de aprendizaje automático. Los árboles de decisión suelen ser una excepción que puede funcionar bien sin ningún tipo de preprocesamiento. Pero pueden funcionar mejor si se pueden identificar algunos procesos que puedan mejorar la calidad de la detección de la decisión.
Como ejemplo de otros modelos de aprendizaje automático: El Análisis Discriminante Lineal, o el Análisis Discriminante Cuadrático son ambos modelos que se calculan explícitamente a partir del supuesto de que la distribución es una normal multivariante.
Sin embargo, lo único que hacen estos modelos es crear un límite de decisión "lineal" o un límite de decisión "cuadrático" para separar las clases (en un problema de clasificación)
Se ha demostrado que esto da buenos resultados a menudo cuando los datos no se distribuyen necesariamente de forma normal; así que lo que quiero decir es que el hecho de que un modelo asuma una cosa que no es necesariamente cierta no significa que no siga siendo una forma válida y eficaz de generar resultados precisos.
Por supuesto, también puede fracasar estrepitosamente: ahí está el arte del aprendizaje automático.