Pregunta muy interesante (+1). Si bien no conozco ninguna herramienta de software que actualmente ofrezca una funcionalidad integral para la ingeniería de características , definitivamente hay una amplia gama de opciones en ese sentido. Actualmente, hasta donde yo sé, la ingeniería de características sigue siendo en gran medida un proceso laborioso y manual (es decir, vea esta publicación de blog ). Hablando sobre el dominio del tema de ingeniería de características, este excelente artículo de Jason Brownlee proporciona una visión general bastante completa del tema.
Ben Lorica, científico jefe de datos y director de estrategia de contenido para datos de O'Reilly Media Inc., ha escrito un artículo muy agradable que describe los enfoques, métodos, herramientas y nuevas empresas de vanguardia (a partir de junio de 2014) área de automatización (o, como él lo dijo, racionalización ) de ingeniería de características.
Eché un vistazo breve a algunas startups a las que Ben ha hecho referencia y un producto de Skytree parece bastante impresionante, especialmente en lo que respecta al tema de esta pregunta. Dicho esto, algunas de sus afirmaciones me parecen realmente sospechosas (es decir, "Skytree acelera los métodos de aprendizaje automático hasta 150 veces en comparación con las opciones de código abierto" ). Continuando hablando sobre las ofertas comerciales de ciencia de datos y aprendizaje automático, debo mencionar las soluciones de Microsoft, en particular su Azure Machine Learning Studio . Este producto basado en la web es bastante potente y elegante y ofrece algunas funciones de ingeniería de funciones (FEF). Para ver un ejemplo de algunos FEF simples, vea este bonito video .
Volviendo a la pregunta, creo que el enfoque más simple que uno puede aplicar para automatizar la ingeniería de características es usar los IDE correspondientes . Dado que usted (yo también) está interesado en el lenguaje R como un backend de ciencia de datos, sugeriría verificar, además de RStudio, otro IDE de código abierto similar, llamado RKWard . Una de las ventajas de RKWard vs RStudio es que admite la escritura de complementos para el IDE, lo que permite a los científicos de datos automatizar la ingeniería de características y optimizar su análisis de datos basado en R.
Finalmente, en el otro lado del espectro de soluciones de ingeniería de características podemos encontrar algunos proyectos de investigación . Los dos más notables parecen ser el proyecto Columbus de la Universidad de Stanford , descrito en detalle en el documento de investigación correspondiente , y Brainwash , descrito en este documento .