¿Cómo selecciono las características relevantes de los datos?

11

Recientemente estaba trabajando en un problema para hacer un análisis de costos de mis gastos para algún recurso en particular. Por lo general, tomo algunas decisiones manuales del análisis y planifico en consecuencia.

Tengo un gran conjunto de datos en formato Excel y con cientos de columnas, que definen el uso del recurso en varios marcos de tiempo y tipos (otro uso detallado). También tengo información sobre mis 4 años anteriores de datos y uso real de recursos y costos incurridos en consecuencia.

Esperaba entrenar a un NN para predecir mi costo de antemano y planificar incluso antes de que pueda hacer el análisis de costos manualmente.

Pero el mayor problema al que me enfrento es la necesidad de identificar las características para dicho análisis. Esperaba que hubiera alguna forma de identificar las características del conjunto de datos.

PD: Tengo una idea sobre PCA y algunas otras técnicas de reducción del conjunto de características, lo que estoy buscando es la forma de identificarlas en primer lugar.

Karan Chopra
fuente

Respuestas:

1

Como tiene todos sus datos en una tabla, una cosa relativamente simple es considerar cada columna de forma independiente y luego ver si la variable de salida (costo incurrido) tiene una correlación con eso.

Si la columna no tiene (o una correlación muy baja) con la variable de salida, considere que no es importante. Los que hacen el corte se consideran más a fondo.

Obviamente, esto no es muy diferente de cómo funcionaría un algoritmo de árbol de decisión (como ID3).

Amrinder Arora
fuente
0

no hay una regla estricta para la selección de características, debe examinar manualmente el conjunto de datos y probar diferentes técnicas para la ingeniería de características. Y no hay una regla que indique que debe aplicar redes neuronales para esto, las redes neuronales requieren mucho tiempo para entrenarse, en su lugar puede experimentar con métodos basados ​​en árboles de decisión (bosques aleatorios) ya que sus datos están de todos modos en estructura tabular.

riemann77
fuente
gracias por el aporte, 1. Estoy de acuerdo en que NN no es la mejor manera de probar la hipótesis, pero supongo que usando NN podemos lograr relaciones más amplias entre las características, para obtener mejores resultados (en la mayoría de los casos). 2. El problema que enfrentaba era seleccionar las características, que en realidad definirían el patrón para mi problema, y ​​también cómo definir los pesos de las características.
Karan Chopra
0

Esa es una gran pregunta y probablemente una de las tareas más difíciles en ML.

Tienes algunas opciones:

  1. Puede usar algoritmos de ponderación (por ejemplo, Chi-cuadrado) para comprender qué características contribuyen más a su salida
  2. Puede usar otros algoritmos de ML para clasificar si una característica está contribuyendo a sus predicciones o no
  3. Puede usar otros algoritmos de ML (que no sean NN) que le proporcionan inherentemente ponderaciones de características (por ejemplo, Bosque aleatorio)

Espero que ayude

Ragy Ibrahim
fuente
0

Es aconsejable considerar no solo la correlación de la participación de recursos con el costo, sino también el rendimiento del costo de la participación de recursos. El desafío típico es que esos retornos son casi siempre acumulativos o retrasados. Un caso de acumulación es cuando el recurso es el ajuste continuo o la mejora de un proceso cuya ausencia ralentiza la generación de ingresos. Un caso de retraso es cuando los recursos de investigación incurren en costos sin impacto en los ingresos durante un período de tiempo, pero la generación de ingresos que comienza si la investigación entrega resultados productivos puede ser un factor sustancial por encima del costo total de los resultados entregados.

La razón por la cual los datos de gastos por sí solos pueden conducir a un aprendizaje de red desadaptativo se debe a que una red que está capacitada para reducir, por ejemplo, los gastos de marketing, los reducirá a cero. Eso generalmente causaría una tendencia decreciente de ventas hasta que el negocio se retire. Sin incluir los retornos en la información de capacitación, no puede ocurrir un aprendizaje útil.

Un MLP básico (perceptrón multicapa) no aprenderá las características temporales de los datos, los aspectos de acumulación y retraso. Necesitará una red con estado. El tipo de red más exitoso consistentemente para este tipo de aprendizaje a partir de este escrito es el tipo de red LSTM (memoria a largo plazo) o una de sus variantes derivadas. Los datos de ingresos y saldos deben usarse junto con los datos de gastos para capacitar a la red para predecir los resultados comerciales para cualquier secuencia dada de compromisos de recursos propuestos (plan presupuestario completamente detallado).

La función de pérdida debe equilibrar adecuadamente el plazo de clasificación con los objetivos financieros a mediano y largo plazo. El efectivo disponible negativo debería producir un aumento pronunciado en la función de pérdida para que se evite tal riesgo básico para la reputación y el costo del crédito.

Es difícil determinar de antemano qué columnas de sus datos tienen fuertes correlaciones con el retorno de la inversión. Puede excluir inmediatamente columnas que cumplan con cualquiera de los siguientes criterios.

  • Siempre vacio
  • Otras constantes, aquellas que tienen el mismo valor para cada fila
  • Los que siempre pueden derivarse de otras columnas

Los datos se pueden reducir de otras maneras.

  • Describir completamente los datos caracterizando las tendencias de manera simple.
  • Usar índices para especificar cadenas largas con una precisión del 100% asignando un número a cada cadena
  • Compresión
  • De lo contrario, reducir la redundancia en los datos

Los RBM (máquinas de Boltzmann restringidas) pueden extraer características de los datos y los PCA pueden iluminar las columnas de bajo contenido de información, pero la importancia de las columnas en términos de su correlación con los ingresos no se identificará utilizando estos dispositivos en su forma básica.

Douglas Daseeco
fuente