¿Cuál es la relación entre correlación y causalidad en el aprendizaje automático?

13

Es un hecho bien conocido que "la correlación no es igual a la causalidad", pero el aprendizaje automático parece basarse casi por completo en la correlación. Estoy trabajando en un sistema para estimar el rendimiento de los estudiantes en preguntas basadas en sus actuaciones pasadas. A diferencia de otras tareas, como la búsqueda de Google, este no parece ser el tipo de sistema que se puede jugar fácilmente, por lo que la causalidad no es realmente relevante en ese sentido.

Claramente, si queremos hacer experimentos para optimizar el sistema, tendremos que preocuparnos por la distinción de correlación / causalidad. Pero, desde el punto de vista de solo construir un sistema para elegir preguntas que probablemente tengan el nivel de dificultad apropiado, ¿tiene alguna importancia esta distinción?

machine-learning statistics Casebash
fuente

Defina o al menos refiérase a qué quiere decir con causalidad de correlación en "Correlación no es igual a causalidad"

seteropere

11

No toda la IA funciona en la correlación, las redes de creencias bayesianas se basan en la probabilidad de que A cause B.

Estoy trabajando en un sistema para estimar el rendimiento de los estudiantes en preguntas basadas en sus actuaciones pasadas.

No creo que necesites causalidad para esto. Un rendimiento pasado no causa un rendimiento actual. Responder una pregunta temprana no causa una respuesta en una pregunta posterior.

Pero desde el punto de vista de solo construir un sistema para elegir preguntas que probablemente tengan el nivel de dificultad apropiado, ¿tiene alguna importancia esta distinción?

No, no por tu ejemplo. Creo que la correlación (o incluso la simple extrapolación) resolvería su problema muy bien. Asigne un puntaje de dificultad a cada una de las preguntas y luego envíe preguntas a los estudiantes en niveles cada vez más difíciles (que es la forma en que funcionan la mayoría de los exámenes) y luego, cuando el estudiante comience a equivocarse, puede reducir la dificultad. Ese es un algoritmo de retroalimentación que es similar a la minimización de errores realizada en una neurona en un perceptrón de múltiples capas. ¡La parte no trivial de espacios de entrada como esta es decidir qué pregunta difícil es!

Un mejor ejemplo de causalidad en la IA sería:

Mi auto se está desacelerando. Mi acelerador está en el piso. No hay mucho ruido. Hay luces en el tablero. ¿Cuál es la probabilidad de que me quede sin combustible?

En este caso, quedarse sin combustible ha provocado que el automóvil disminuya la velocidad. Este es precisamente el tipo de problema que resuelven Bayesian Belief Networks.

Dr. Rob Lang
fuente

"No creo que necesite causalidad para esto. Un desempeño pasado no causa un desempeño actual. Responder una pregunta temprana no causa una respuesta en una pregunta posterior". - bueno, el hecho de que un estudiante haya completado un ejercicio puede hacer que se desempeñe mejor en otro ejercicio (se los proporcionamos, sugerencias, etc.).

Casebash

Pero supongo que tiene razón, no se trata tanto de correlación versus causalidad, sino de si se correlaciona con una causalidad (es decir, los estudiantes de una clase en particular obtienen buenos resultados en temas de geometría porque el maestro lo cubrió con más detalle, frente a los estudiantes que completó los temas más difíciles que tienden a tener un alto rendimiento porque son los únicos que pueden hacerlo)

Casebash

Ah! Eso es interesante: completar un ejercicio y conocer el resultado del mismo es la causa de ser mejor en las preguntas. Pero eso no es observable aquí. Lo único que estás observando son las preguntas del examen, que están correlacionadas. La correlación no está sucia, está bien decir que dos procesos estadísticos tienen una relación.

Dr. Rob Lang

A causa B es una interpretación de una red de creencias.

seteropere

6

el aprendizaje automático parece basarse casi por completo en la correlación

No lo creo, al menos no en general. Por ejemplo, la suposición principal para los algoritmos de ML en términos de análisis PAC y análisis de dimensión VC , es que los datos de entrenamiento / prueba provienen de la misma distribución que los datos futuros.

Entonces, en su sistema, tendría que suponer que cada estudiante impone algún tipo de distribución de probabilidad condicional que genera respuestas a tipos particulares de preguntas sobre temas particulares. Otra suposición, y más problemática que tiene que hacer, es que esta distribución no cambia (o no cambia rápidamente).

BartoszKP
fuente

2

Estoy de acuerdo con las respuestas anteriores.

Sin embargo, si está interesado en analizar la correlación / causalidad en general, dos elementos que tal vez desee considerar son:

Pearl (sí, esa Pearl ) ha producido uno de los pocos libros decentes sobre él.
El aprendizaje de refuerzo y el problema de los bandidos armados múltiples se basan en un actor que intenta inferir cursos de acción óptimos en un entorno desconocido, es decir, deben aprender qué "acciones" les darán la mejor "recompensa" y, por lo tanto, explícitamente provocar relaciones

fuente

2

Además de las otras respuestas, hay un tema interesante: si está seleccionando características manualmente, es posible que desee pensar en una 'correlación coincidente' para reducir el sobreajuste, es decir, evitar características que de alguna manera se correlacionan en sus datos de entrenamiento pero no No debería correlacionarse en el caso general: que no exista ninguna relación causal.

Como ejemplo burdo, supongamos que toma una tabla de datos de los resultados del examen histórico e intenta predecir los criterios de aprobación / reprobación; simplemente incluye todos los campos de datos disponibles como características, y que la tabla también tenga el cumpleaños de los estudiantes. Ahora bien, puede haber una correlación válida en los datos de capacitación que los estudiantes nacidos el 12 de febrero casi siempre aprueban y los estudiantes nacidos el 13 de febrero casi siempre fallan ... pero como no hay una relación causal, eso debería excluirse.

En la vida real es un poco más sutil, pero ayuda a distinguir las correlaciones que ajustan sus datos a las señales válidas que se deben aprender; y correlaciones que son simplemente patrones causados por ruido aleatorio en su conjunto de entrenamiento.

Pedro es
fuente

¿Cuál es la relación entre correlación y causalidad en el aprendizaje automático?

Respuestas: