Es un hecho bien conocido que "la correlación no es igual a la causalidad", pero el aprendizaje automático parece basarse casi por completo en la correlación. Estoy trabajando en un sistema para estimar el rendimiento de los estudiantes en preguntas basadas en sus actuaciones pasadas. A diferencia de otras tareas, como la búsqueda de Google, este no parece ser el tipo de sistema que se puede jugar fácilmente, por lo que la causalidad no es realmente relevante en ese sentido.
Claramente, si queremos hacer experimentos para optimizar el sistema, tendremos que preocuparnos por la distinción de correlación / causalidad. Pero, desde el punto de vista de solo construir un sistema para elegir preguntas que probablemente tengan el nivel de dificultad apropiado, ¿tiene alguna importancia esta distinción?
fuente
Respuestas:
No toda la IA funciona en la correlación, las redes de creencias bayesianas se basan en la probabilidad de que A cause B.
No creo que necesites causalidad para esto. Un rendimiento pasado no causa un rendimiento actual. Responder una pregunta temprana no causa una respuesta en una pregunta posterior.
No, no por tu ejemplo. Creo que la correlación (o incluso la simple extrapolación) resolvería su problema muy bien. Asigne un puntaje de dificultad a cada una de las preguntas y luego envíe preguntas a los estudiantes en niveles cada vez más difíciles (que es la forma en que funcionan la mayoría de los exámenes) y luego, cuando el estudiante comience a equivocarse, puede reducir la dificultad. Ese es un algoritmo de retroalimentación que es similar a la minimización de errores realizada en una neurona en un perceptrón de múltiples capas. ¡La parte no trivial de espacios de entrada como esta es decidir qué pregunta difícil es!
Un mejor ejemplo de causalidad en la IA sería:
En este caso, quedarse sin combustible ha provocado que el automóvil disminuya la velocidad. Este es precisamente el tipo de problema que resuelven Bayesian Belief Networks.
fuente
No lo creo, al menos no en general. Por ejemplo, la suposición principal para los algoritmos de ML en términos de análisis PAC y análisis de dimensión VC , es que los datos de entrenamiento / prueba provienen de la misma distribución que los datos futuros.
Entonces, en su sistema, tendría que suponer que cada estudiante impone algún tipo de distribución de probabilidad condicional que genera respuestas a tipos particulares de preguntas sobre temas particulares. Otra suposición, y más problemática que tiene que hacer, es que esta distribución no cambia (o no cambia rápidamente).
fuente
Estoy de acuerdo con las respuestas anteriores.
Sin embargo, si está interesado en analizar la correlación / causalidad en general, dos elementos que tal vez desee considerar son:
fuente
Además de las otras respuestas, hay un tema interesante: si está seleccionando características manualmente, es posible que desee pensar en una 'correlación coincidente' para reducir el sobreajuste, es decir, evitar características que de alguna manera se correlacionan en sus datos de entrenamiento pero no No debería correlacionarse en el caso general: que no exista ninguna relación causal.
Como ejemplo burdo, supongamos que toma una tabla de datos de los resultados del examen histórico e intenta predecir los criterios de aprobación / reprobación; simplemente incluye todos los campos de datos disponibles como características, y que la tabla también tenga el cumpleaños de los estudiantes. Ahora bien, puede haber una correlación válida en los datos de capacitación que los estudiantes nacidos el 12 de febrero casi siempre aprueban y los estudiantes nacidos el 13 de febrero casi siempre fallan ... pero como no hay una relación causal, eso debería excluirse.
En la vida real es un poco más sutil, pero ayuda a distinguir las correlaciones que ajustan sus datos a las señales válidas que se deben aprender; y correlaciones que son simplemente patrones causados por ruido aleatorio en su conjunto de entrenamiento.
fuente