Recientemente estaba trabajando en un problema para hacer un análisis de costos de mis gastos para algún recurso en particular. Por lo general, tomo algunas decisiones manuales del análisis y planifico en consecuencia.
Tengo un gran conjunto de datos en formato Excel y con cientos de columnas, que definen el uso del recurso en varios marcos de tiempo y tipos (otro uso detallado). También tengo información sobre mis 4 años anteriores de datos y uso real de recursos y costos incurridos en consecuencia.
Esperaba entrenar a un NN para predecir mi costo de antemano y planificar incluso antes de que pueda hacer el análisis de costos manualmente.
Pero el mayor problema al que me enfrento es la necesidad de identificar las características para dicho análisis. Esperaba que hubiera alguna forma de identificar las características del conjunto de datos.
PD: Tengo una idea sobre PCA y algunas otras técnicas de reducción del conjunto de características, lo que estoy buscando es la forma de identificarlas en primer lugar.
fuente
Esa es una gran pregunta y probablemente una de las tareas más difíciles en ML.
Tienes algunas opciones:
Espero que ayude
fuente
Es aconsejable considerar no solo la correlación de la participación de recursos con el costo, sino también el rendimiento del costo de la participación de recursos. El desafío típico es que esos retornos son casi siempre acumulativos o retrasados. Un caso de acumulación es cuando el recurso es el ajuste continuo o la mejora de un proceso cuya ausencia ralentiza la generación de ingresos. Un caso de retraso es cuando los recursos de investigación incurren en costos sin impacto en los ingresos durante un período de tiempo, pero la generación de ingresos que comienza si la investigación entrega resultados productivos puede ser un factor sustancial por encima del costo total de los resultados entregados.
La razón por la cual los datos de gastos por sí solos pueden conducir a un aprendizaje de red desadaptativo se debe a que una red que está capacitada para reducir, por ejemplo, los gastos de marketing, los reducirá a cero. Eso generalmente causaría una tendencia decreciente de ventas hasta que el negocio se retire. Sin incluir los retornos en la información de capacitación, no puede ocurrir un aprendizaje útil.
Un MLP básico (perceptrón multicapa) no aprenderá las características temporales de los datos, los aspectos de acumulación y retraso. Necesitará una red con estado. El tipo de red más exitoso consistentemente para este tipo de aprendizaje a partir de este escrito es el tipo de red LSTM (memoria a largo plazo) o una de sus variantes derivadas. Los datos de ingresos y saldos deben usarse junto con los datos de gastos para capacitar a la red para predecir los resultados comerciales para cualquier secuencia dada de compromisos de recursos propuestos (plan presupuestario completamente detallado).
La función de pérdida debe equilibrar adecuadamente el plazo de clasificación con los objetivos financieros a mediano y largo plazo. El efectivo disponible negativo debería producir un aumento pronunciado en la función de pérdida para que se evite tal riesgo básico para la reputación y el costo del crédito.
Es difícil determinar de antemano qué columnas de sus datos tienen fuertes correlaciones con el retorno de la inversión. Puede excluir inmediatamente columnas que cumplan con cualquiera de los siguientes criterios.
Los datos se pueden reducir de otras maneras.
Los RBM (máquinas de Boltzmann restringidas) pueden extraer características de los datos y los PCA pueden iluminar las columnas de bajo contenido de información, pero la importancia de las columnas en términos de su correlación con los ingresos no se identificará utilizando estos dispositivos en su forma básica.
fuente