Si usted está buscando para Java o C/C++/C#, entonces usted tendrá un tiempo mucho más difícil con esto que si miraba R, Matlab, o Python (con Scipy).
Para los otros idiomas, te recomiendo:
- Java: Weka es uno de los más completos de minería de datos de las bibliotecas por ahí. Afortunadamente, también viene con un muy buen libro -- "Minería de Datos: la Práctica de la Máquina de Aprendizaje de Técnicas y Herramientas" -- que cubre el campo de la minería de datos. Que acaba de salir con una nueva edición.
- C++: En mi experiencia, la más completa y documentada de la biblioteca de esto es el Tiburón. Sólo una nota: actualmente está pasando por un muy importante revisión a medida que comienzan a usar el Boost para reemplazar su Matriz existente de la biblioteca.
En general, no sé por qué no utilizar R para esto. Es libremente disponible, muy completo, tiene un montón de documentación, y pueden integrarse fácilmente desde Java (RJava) y C++ (Rcpp). Además, si usted está utilizando "Los Elementos de Aprendizaje Estadístico": que el libro de texto utilizado S-Plus/R para hacer todos sus análisis. Y R es el único idioma que conozco que incluye todos los algoritmos del libro (incluyendo cosas como lars, el cual fue creado por uno de los autores del libro). Y me estoy empezando a lentamente reproducir la mayoría de los principales ejemplos de ese libro en R en mi blog.