Digamos que tengo un problema simple de aprendizaje automático como una clasificación. Con algunos puntos de referencia en visión o reconocimiento de audio, yo, como humano, soy un muy buen clasificador. Por lo tanto, tengo una intuición sobre qué tan bueno puede ser un clasificador.
Pero con muchos datos, un punto es que no sé qué tan bueno es el clasificador que entreno. Estos son datos en los que personalmente no soy un buen clasificador (por ejemplo, clasificar el estado de ánimo de una persona a partir de los datos de EEG). No es realmente posible intuir cuán difícil es mi problema.
Ahora, si me presentan un problema de aprendizaje automático, me gustaría saber qué tan bueno puedo ser. ¿Hay algún enfoque basado en principios para esto? ¿Cómo harías esto?
Visualizar datos? Comience con modelos simples? ¿Comenzar con modelos muy complejos y ver si puedo sobreajustar? ¿Qué estás buscando si quieres responder a esta pregunta? ¿Cuándo dejas de intentarlo?
fuente
Si hay alguna forma de visualizar sus datos, ese es el mejor escenario posible, sin embargo, no todos los datos se pueden visualizar de la misma manera, por lo que es posible que necesite encontrar su propia forma de proyectar los datos que puedan ayudarlo a comprender sus datos. mejor.
Sin embargo, en general, generalmente tomo una pequeña muestra de los datos, los convierto en ARFF y pruebo diferentes algoritmos de agrupación de WEKA. Entonces, solo veo qué algoritmo me da una mejor matriz de confusión. Me da una pista de cuán bien están separadas las clases y me permite investigar por qué ese algoritmo en particular funciona mejor para estos datos. También cambio la cantidad de grupos (es decir, no solo uso k = 2, uso k = 3, 4, etc.). Me da una idea de si hay fragmentación en los datos o si una clase está más fragmentada que la otra. Si combina puntos de entrenamiento y prueba para agruparlos, también puede medir qué grupos están representados por sus puntos de entrenamiento. Algunos grupos pueden estar sobrerrepresentados y otros pueden estar subrepresentados, ambos pueden causar problemas para aprender un clasificador.
Siempre verifique la precisión de su entrenamiento. Si su precisión de entrenamiento no se ve bien, entonces los puntos de entrenamiento mal clasificados también son una gran pista.
fuente