Muchas veces he analizado un conjunto de datos en el que realmente no podría hacer ningún tipo de clasificación. Para ver si puedo obtener un clasificador, generalmente he usado los siguientes pasos:
- Genere diagramas de caja de etiqueta contra valores numéricos.
- Reduce la dimensionalidad a 2 o 3 para ver si las clases son separables, también probé LDA a veces.
- Intente encajar con fuerza los SVM y los bosques aleatorios y observe la importancia de las características para ver si las características tienen sentido o no.
- Intente cambiar el equilibrio de clases y técnicas, como submuestreo y sobremuestreo para verificar si el desequilibrio de clase podría ser un problema.
Hay muchos otros enfoques en los que puedo pensar, pero no lo he intentado. A veces sé que estas características no son buenas y no están relacionadas en absoluto con la etiqueta que intentamos predecir. Luego uso esa intuición comercial para finalizar el ejercicio, concluyendo que necesitamos mejores características o etiquetas totalmente diferentes.
Mi pregunta es cómo informa un científico de datos que la clasificación no se puede hacer con estas características. ¿Existe alguna forma estadística de informar esto o ajustar primero los datos en diferentes algoritmos y observar la métrica de validación es la mejor opción?
Respuestas:
Depende de tus datos. Hay algo llamado error a nivel humano. Supongamos tareas como la lectura de libros impresos, los humanos no luchan para leer y puede que no ocurra un error a menos que sea debido a la mala calidad de impresión. En casos como leer manuscritos escritos a mano, puede suceder que no comprenda todas las palabras si la fuente del escritor es extraña para el lector. En la primera situación, el error de nivel humano es demasiado bajo y los algoritmos de aprendizaje pueden tener el mismo rendimiento, pero el segundo ejemplo ilustra el hecho de que en algunas situaciones el error de nivel humano es muy alto y de la manera habitual (si usa el mismo características como humanos) su algoritmo de aprendizaje tendrá tanta relación de error.
En el aprendizaje estadístico, hay algo llamado
Bayes Error
, cada vez que la distribución de clases se superpone, la proporción de error es grande. sin cambiar las características, el error de Bayes de las distribuciones actuales es el mejor rendimiento y no se puede reducir en absoluto.También te sugiero que leas aquí . Los problemas con una gran cantidad de errores de Bayes con características designadas se consideran no clasificables en el espacio de esas características. Como otro ejemplo, puede suponer que desea clasificar los automóviles con las luces encendidas. Si intentas hacer eso por la mañana, puedes tener muchos errores y si usas las mismas imágenes para entrenar el algoritmo de aprendizaje, eso también puede tenerlo.
También te recomiendo que no cambies la distribución de tus clases. En tales casos, el resultado del clasificador cerca del límite sería completamente aleatorio. La distribución de datos para entrenar su algoritmo de aprendizaje automático no debe modificarse y debe ser como está en la condición real.
fuente
Tome un elemento de muestra de una clase y un elemento de muestra de la otra clase. ¿Es posible que estos dos elementos tengan exactamente el mismo vector de características? Si eso puede nunca ocurrirá entonces las dos clases no son completamente seperable usando sus vectores de características actuales (ya que la decisión de clasificación se basa por completo en el vector de características para un elemento dado).
Por otro lado, si * cada "elemento en una clase tiene un elemento correspondiente en la otra clase de modo que los dos elementos tienen los mismos vectores de características, entonces las dos clases son indistinguibles usando sus vectores de características actuales.
Además, si esa condición se cumple solo para algunos de sus elementos y no para otros, entonces se encuentra en un punto intermedio, y puede usar eso como base para medir qué tan bien puede esperar que un clasificador funcione usando su conjunto de características actual.
Todas estas evaluaciones se pueden utilizar para argumentar en diversos grados que necesita extraer más funciones.
fuente