¿Cuándo decimos que el conjunto de datos no es clasificable?

11

Muchas veces he analizado un conjunto de datos en el que realmente no podría hacer ningún tipo de clasificación. Para ver si puedo obtener un clasificador, generalmente he usado los siguientes pasos:

  1. Genere diagramas de caja de etiqueta contra valores numéricos.
  2. Reduce la dimensionalidad a 2 o 3 para ver si las clases son separables, también probé LDA a veces.
  3. Intente encajar con fuerza los SVM y los bosques aleatorios y observe la importancia de las características para ver si las características tienen sentido o no.
  4. Intente cambiar el equilibrio de clases y técnicas, como submuestreo y sobremuestreo para verificar si el desequilibrio de clase podría ser un problema.

Hay muchos otros enfoques en los que puedo pensar, pero no lo he intentado. A veces sé que estas características no son buenas y no están relacionadas en absoluto con la etiqueta que intentamos predecir. Luego uso esa intuición comercial para finalizar el ejercicio, concluyendo que necesitamos mejores características o etiquetas totalmente diferentes.

Mi pregunta es cómo informa un científico de datos que la clasificación no se puede hacer con estas características. ¿Existe alguna forma estadística de informar esto o ajustar primero los datos en diferentes algoritmos y observar la métrica de validación es la mejor opción?

vc_dim
fuente
Siento que si esta pregunta tiene una respuesta clara y objetiva, entonces todo el esfuerzo científico no tiene sentido. La ciencia es arte.
Mephy
Jaja sí cierto. Solo estoy interesado en conocer más métodos para encontrar la separabilidad. Más como mostrar estadísticamente a los clientes que dedicar más tiempo a algunos ejercicios podría ser inútil.
vc_dim
1
Sugiero eliminar los dos últimos párrafos, ya que hacen que la pregunta sea demasiado abierta / amplia. La primera parte, cómo manejar e informar un resultado no profesional, debe ser responsable, y personalmente creo que necesitamos más de este tipo de pregunta de etiqueta profesional de Data Science en el sitio.
Neil Slater
Tiene sentido Neil. Editándolo para que sea nítido.
vc_dim

Respuestas:

4

Depende de tus datos. Hay algo llamado error a nivel humano. Supongamos tareas como la lectura de libros impresos, los humanos no luchan para leer y puede que no ocurra un error a menos que sea debido a la mala calidad de impresión. En casos como leer manuscritos escritos a mano, puede suceder que no comprenda todas las palabras si la fuente del escritor es extraña para el lector. En la primera situación, el error de nivel humano es demasiado bajo y los algoritmos de aprendizaje pueden tener el mismo rendimiento, pero el segundo ejemplo ilustra el hecho de que en algunas situaciones el error de nivel humano es muy alto y de la manera habitual (si usa el mismo características como humanos) su algoritmo de aprendizaje tendrá tanta relación de error.

En el aprendizaje estadístico, hay algo llamado Bayes Error, cada vez que la distribución de clases se superpone, la proporción de error es grande. sin cambiar las características, el error de Bayes de las distribuciones actuales es el mejor rendimiento y no se puede reducir en absoluto.

También te sugiero que leas aquí . Los problemas con una gran cantidad de errores de Bayes con características designadas se consideran no clasificables en el espacio de esas características. Como otro ejemplo, puede suponer que desea clasificar los automóviles con las luces encendidas. Si intentas hacer eso por la mañana, puedes tener muchos errores y si usas las mismas imágenes para entrenar el algoritmo de aprendizaje, eso también puede tenerlo.

También te recomiendo que no cambies la distribución de tus clases. En tales casos, el resultado del clasificador cerca del límite sería completamente aleatorio. La distribución de datos para entrenar su algoritmo de aprendizaje automático no debe modificarse y debe ser como está en la condición real.

Medios de comunicación
fuente
Esto es útil, no sabía sobre Bayes Error. Encontré dificultades para mejorar las precisiones después de cambiar la distribución de clases. Estoy de acuerdo en que no es una gran idea. Sin embargo, a veces he tratado de cambiar las jerarquías de clases con la esperanza de que esa característica represente clases más granulares o abstractas (por ejemplo, cambiar monos, perros y otros a Mamíferos). Creo que si hay un error de Bayes, cambiar la jerarquía de clases tampoco ayudará.
vc_dim
@SumitSinghChauhan En realidad, en situaciones donde el error de Bayes es grande, intentar hacer ingeniería de características es la mejor solución. Debido a que el aprendizaje profundo que encuentra las características en sí mismo, no se puede utilizar en casos donde el conjunto de datos no es grande.
Medios de comunicación
5

Tome un elemento de muestra de una clase y un elemento de muestra de la otra clase. ¿Es posible que estos dos elementos tengan exactamente el mismo vector de características? Si eso puede nunca ocurrirá entonces las dos clases no son completamente seperable usando sus vectores de características actuales (ya que la decisión de clasificación se basa por completo en el vector de características para un elemento dado).

Por otro lado, si * cada "elemento en una clase tiene un elemento correspondiente en la otra clase de modo que los dos elementos tienen los mismos vectores de características, entonces las dos clases son indistinguibles usando sus vectores de características actuales.

Además, si esa condición se cumple solo para algunos de sus elementos y no para otros, entonces se encuentra en un punto intermedio, y puede usar eso como base para medir qué tan bien puede esperar que un clasificador funcione usando su conjunto de características actual.

Todas estas evaluaciones se pueden utilizar para argumentar en diversos grados que necesita extraer más funciones.


fuente
1
Gracias Robert Esto es familiar y parece correcto. He hecho el mismo análisis para algunos de los proyectos. Tenía un conjunto de datos con el mismo vector de características etiquetado de manera diferente y lo usé como base de cuán preciso puedo ser. Algunas veces, el diagrama de caja también ayudó. Hasta ahora he encontrado el enfoque que acabas de mencionar para convencer a los clientes.
vc_dim