Se espera el mejor rendimiento posible en un conjunto de datos

9

Digamos que tengo un problema simple de aprendizaje automático como una clasificación. Con algunos puntos de referencia en visión o reconocimiento de audio, yo, como humano, soy un muy buen clasificador. Por lo tanto, tengo una intuición sobre qué tan bueno puede ser un clasificador.

Pero con muchos datos, un punto es que no sé qué tan bueno es el clasificador que entreno. Estos son datos en los que personalmente no soy un buen clasificador (por ejemplo, clasificar el estado de ánimo de una persona a partir de los datos de EEG). No es realmente posible intuir cuán difícil es mi problema.

Ahora, si me presentan un problema de aprendizaje automático, me gustaría saber qué tan bueno puedo ser. ¿Hay algún enfoque basado en principios para esto? ¿Cómo harías esto?

Visualizar datos? Comience con modelos simples? ¿Comenzar con modelos muy complejos y ver si puedo sobreajustar? ¿Qué estás buscando si quieres responder a esta pregunta? ¿Cuándo dejas de intentarlo?

bayerj
fuente

Respuestas:

6

No sé si esto cuenta como una respuesta ...

Este es el único problema que te mantiene despierto por la noche. ¿Puedes construir un mejor modelo? Phd-comics lo resume muy bien (no sé si se me permite subir los cómics, así que solo los vinculé)

Desde mi experiencia personal, obtenida al participar en concursos de Machine Learning, esta es una regla general.

Imagina que tienes una tarea de clasificación. Siéntese, haga una lluvia de ideas durante una hora o menos sobre cómo abordaría el problema y vea el estado del arte en esta área. Cree un modelo basado en esta investigación, preferiblemente uno que se sepa que es estable sin demasiados ajustes de parámetros. El rendimiento resultante será aproximadamente del 80% del rendimiento máximo alcanzable.

Esta regla se basa en el llamado principio de Pareto , que también se aplica a la optimización. Ante un problema, puede crear una solución que tenga un rendimiento razonablemente rápido, pero a partir de ese momento, la relación de mejora al esfuerzo temporal disminuye rápidamente.

Algunas palabras finales: cuando leo documentos sobre nuevos algoritmos de clasificación, espero que los autores comparen su nueva raza con enfoques "pareto-optimizados", es decir, espero que pasen una cantidad razonable de tiempo para hacer que el estado del arte funcione (algunos requieren más o menos optimización de parámetros). Desafortunadamente, muchos no hacen eso.

steffen
fuente
0

La forma convencional es considerar el ROC y el área debajo de él (AUC). La razón detrás de este enfoque es que cuanto mayor sea la tasa positiva verdadera para una tasa positiva falsa particular, mejor será el clasificador. La integración de todas las posibles tasas de falsos positivos le brinda una medida general.

Emre
fuente
3
Hasta donde he entendido el OP, su problema NO es la medición del rendimiento de un clasificador (que es de esperar una buena estimación para el rendimiento esperado futuro), sino qué tan bueno se puede obtener en absoluto, es decir, cuál es el máximo (no absolutamente por métrica (AUC es 1 como máximo o algo así), pero para un problema dado)
steffen
Sí, a eso me refería.
bayerj
0

Si hay alguna forma de visualizar sus datos, ese es el mejor escenario posible, sin embargo, no todos los datos se pueden visualizar de la misma manera, por lo que es posible que necesite encontrar su propia forma de proyectar los datos que puedan ayudarlo a comprender sus datos. mejor.

Sin embargo, en general, generalmente tomo una pequeña muestra de los datos, los convierto en ARFF y pruebo diferentes algoritmos de agrupación de WEKA. Entonces, solo veo qué algoritmo me da una mejor matriz de confusión. Me da una pista de cuán bien están separadas las clases y me permite investigar por qué ese algoritmo en particular funciona mejor para estos datos. También cambio la cantidad de grupos (es decir, no solo uso k = 2, uso k = 3, 4, etc.). Me da una idea de si hay fragmentación en los datos o si una clase está más fragmentada que la otra. Si combina puntos de entrenamiento y prueba para agruparlos, también puede medir qué grupos están representados por sus puntos de entrenamiento. Algunos grupos pueden estar sobrerrepresentados y otros pueden estar subrepresentados, ambos pueden causar problemas para aprender un clasificador.

Siempre verifique la precisión de su entrenamiento. Si su precisión de entrenamiento no se ve bien, entonces los puntos de entrenamiento mal clasificados también son una gran pista.

TenaliRaman
fuente