- ¿Cuál es el más extensible?
- ¿Cuál es el más eficiente en términos de una curva de aprendizaje mínima, al tiempo que proporciona un grado significativo de flexibilidad y rendimiento?
- ¿Alguna de estas herramientas está realmente limitada en términos de personalización y vale la pena evitarla?
Respuestas
¿Demasiados anuncios?De acuerdo con esta comparación (busque el post escrito por Martin) Rapidminer es más potente en términos de algoritmos de minería implementados y escala mejor para grandes conjuntos de datos.
Siendo originalmente un usuario de WEKA mi impresión es que Rapidminer es también más fácil de usar que WEKA.
En primer lugar, puede depender en gran medida de su elección de plataformas (por ejemplo, R, Python o Java). Algunas de las más comunes:
Python
- Fuera de la caja: Naranja
- Autoadaptado: Scikit-learn y PyBrain
Java
- Fuera de la caja: RapidMiner y KNIME
- Propensos a la autogestión: Weka
R : Aprendizaje automático en R .
En segundo lugar, depende en gran medida de su propósito a la hora de elegir si utilizar la plataforma out of the box o no.
La principal ventaja de las plataformas "rápidas" es que son realmente fáciles de aprender y rápidas de generar algunos resultados. El principal contra es que no todo está implementado en estas plataformas. Debido al esfuerzo en hacer una herramienta muy fácil de usar, la personalización se deja de lado. En algún momento puede que quieras construir tu propio sistema que sólo utilice el aprendizaje automático como componente, probablemente encontrarás que herramientas como scikits-learn son más fáciles de adoptar.
Sin embargo, me parece muy práctico utilizar ambos. Utilizar las "rápidas" para generar toda la idea y hacer algunos experimentos y ajustes, por ejemplo, afinar los parámetros y ajustar las categorías. Y luego, utilizar una herramienta más personalizada para implementar todo el sistema. Por ejemplo, yo utilizo RapidMiner y Scikits-learn juntos.
Hablando de la curva de aprendizaje, es muy probable que RapidMiner como herramienta y Python como lenguaje sean los mejores.
Hablando de extensibilidad, aunque no estoy muy familiarizado con R, creo que R y Python son bastante buenos.
Pasé algún tiempo (un mes más o menos) usando RapidMiner a principios de año; entonces añadí el plugin de R, pensando que R era sólo una biblioteca de funciones estadísticas. Luego aprendí más R, descubrí que también viene con un montón de funciones de aprendizaje automático, y me di cuenta de que R es un superconjunto de todo lo que RapidMiner me estaba dando.
Jugar con la función de arrastrar y soltar de RapidMiner fue divertido, pero cuando dejas de "probarlo" y tratas de escribir algún código real para vencer al mercado Pero cuando se trata de datos financieros reales (es decir, en grandes cantidades), de repente todos esos iconos estorban, y es muy lento (para codificar y para ejecutar lo que he hecho).
Aprender R es un trabajo duro, incluso para un programador experimentado como yo. Me he esforzado mucho en estudiarlo durante los últimos 6 meses o más, pero considero el tiempo como una buena inversión. La integración con C++ (Rcpp) también es muy importante para mí: tu script de R puede estar incrustado en un programa más grande de C++, o alternativamente puedes optimizar sólo una función de R con cuello de botella en C++, o enlazar tu código heredado de C++ con tu script de R.
Sin embargo, si sus necesidades de aprendizaje automático son sólo una pequeña parte de su trabajo, y los datos involucrados no son enormes, y usted no es realmente un programador, entonces RapidMiner es una buena opción.
¿Cuál o cuáles son los más extensibles?
RapidMiner y R. Además, RapidMiner ofrece extensiones para integrar perfectamente R y Weka, por lo que puede combinar la potencia y la extensibilidad de las tres plataformas dentro de RapidMiner. Y puede descargar RapidMiner y su extensión para R y Weka de forma gratuita.
Cuál es el más eficiente en términos de una curva de aprendizaje mínima y al mismo tiempo proporciona un grado significativo de flexibilidad y rendimiento?
RapidMiner. RapidMiner ofrece una interfaz gráfica de usuario fácil de usar, un tutorial en línea incorporado, wizzards incorporados y muchos vídeos gratuitos para empezar a trabajar rápidamente: http://www.RapidMiner.com/
¿Alguna de estas herramientas está realmente limitada en términos de personalización y vale la pena evitarla?
Todas las herramientas mencionadas se pueden personalizar.
Los verdaderos contendientes para una herramienta de escritorio son RapidMiner y R. Si te gusta Windows o Mac, te gustará RapidMiner. Si te gusta la línea de comandos o Linux, te gustará R.
Yo diría que RapidMiner tiene una curva de aprendizaje más plana. El anterior profesor del curso que imparto utilizaba R y los estudiantes (MBA) se quejaban de la curva de aprendizaje. En mi clase con RapidMiner no lo hicieron.
En el lado del servidor, se puede añadir Python como lenguaje de aprendizaje automático de propósito general.
RapidMiner también cuenta con el servidor RapidAnalytics, así como con la extensión Radoop que utiliza Hadoop para big data.
En términos de extensibilidad, puede ampliar RapidMiner fácilmente utilizando Groovy (lenguaje de scripting de Java) como operador, o el propio Java (como extensión).