Estoy tratando de entender la lógica de separación de d en las redes bayesianas causales. Sé cómo funciona el algoritmo, pero no entiendo exactamente por qué el "flujo de información" funciona como se indica en el algoritmo.
Por ejemplo, en el gráfico anterior, pensemos que solo se nos da X y no se ha observado ninguna otra variable. Luego, de acuerdo con las reglas de separación d, la información fluye de X a D:
X influye en A, que es . Esto está bien, ya que A causa X y si conocemos el efecto X, esto afecta nuestra creencia sobre la causa A. La información fluye.
X influye en B, que es . Esto está bien, ya que A ha sido cambiado por nuestro conocimiento sobre X, el cambio en A también puede influir en nuestras creencias sobre su causa, B.
X influye en C, que es . Esto está bien porque sabemos que B está sesgado por nuestro conocimiento sobre su efecto indirecto, X, y dado que B está sesgado por X, esto influirá en todos los efectos directos e indirectos de B. C es un efecto directo de B y está influenciado por nuestro conocimiento sobre X.
Bueno, hasta este punto, todo está bien para mí, ya que el flujo de la información ocurre de acuerdo con las relaciones intuitivas de causa y efecto. Pero no obtengo el comportamiento especial de las llamadas "estructuras en V" o "colisionadores" en este esquema. De acuerdo con la teoría de la separación d, B y D son las causas comunes de C en el gráfico anterior y dice que si no observamos a C ni a ninguno de sus descendientes, la información de flujo de X se bloquea en C. Bueno, está bien. , pero mi pregunta es ¿por qué?
De los tres pasos anteriores, comenzados desde X, vimos que C está influenciado por nuestro conocimiento sobre X y el flujo de información se produjo de acuerdo con la relación causa-efecto. La teoría de la separación d dice que no podemos pasar de C a D ya que C no se observa. Pero creo que, dado que sabemos que C está sesgado y D es una causa de C, D también debería verse afectado, mientras que la teoría dice lo contrario. Claramente me falta algo en mi patrón de pensamiento, pero no puedo ver de qué se trata.
Entonces necesito una explicación de por qué el flujo de información se bloquea en C, si C no se observa.
fuente
Respuestas:
¿No es intuitivo que no se puede razonar de causa a efecto no observado a otra causa? Si la lluvia (B) y el rociador (D) son causas del suelo húmedo (C), entonces ¿puede argumentar que ver lluvia implica que el suelo probablemente esté húmedo y continuar razonando que el rociador debe estar encendido desde el suelo? ¡¿esta mojado?! Por supuesto no. Usted argumentó que el suelo estaba mojado debido a la lluvia, ¡no puede buscar causas adicionales!
Si observa el suelo mojado, por supuesto, la situación cambia. Ahora puede razonar de una causa a otra como explica Frank.
fuente
Olvidémonos de X por un momento y consideremos solo el colisionador de B, C y D. La razón por la cual la estructura v puede bloquear el camino entre B y D es que, en general, si tiene dos variables aleatorias independientes (B y D) que afectan el mismo resultado (C), entonces conocer el resultado puede permitirle sacar conclusiones sobre la relación entre las variables aleatorias, permitiendo así el flujo de información.
Para entender esto mejor, podría ser útil echar un vistazo a la paradoja de Berkson , que describe la misma situación.
fuente
Entonces la tuerca difícil de romper aquí es la estructura en v. Me gustaría ilustrar la diferencia entre la probabilidad de una variable S condicionada solo a la observación del efecto y la influencia de la observación de otra variable D que es independiente de S en la misma situación usando un ejemplo ficticio.
Digamos que alguien está tomando un curso, digamos álgebra lineal. Si puede pasarlo depende principalmente de la dificultad del examen. Denotemos el evento de pasar el curso por P, pasando como 1 y 0 de lo contrario; y la dificultad del examen como D, difícil como 1 y fácil como 0. Y algo sin sentido también puede influir en su rendimiento o en el resultado, digamos que sucede la singularidad y una máquina le lavará el cerebro y luego decide no hacerlo. tomar el examen. Denotamos ese evento por S, y su probabilidad es 0.0001. Eso parece imposible pero, por definición, su probabilidad no debería ser cero.
Por lo tanto, ahora tenemos un gráfico de la forma de estructura v:
1) Si no conocemos el resultado, podemos calcular la probabilidad de que ocurra la singularidad dado que el curso es fácil.
Como puede ver arriba, eso no importa si el examen se aprueba o no. Lo que viene como debería venir. Se puede ver como una probabilidad marginal sobre P.
Y también podemos calcular la probabilidad de que ocurra la singularidad dado que el estudiante no aprueba el examen:
Sabiendo que el tipo no pasa el examen, podemos suponer que una máquina le puede lavar el cerebro es 0.0001818, que es un poco más grande que cuando no lo sabemos.
2) But what if we know that the guy failed the exam and the exam is easy?P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998
Lo and behold, the change is much bigger than we just know he doesn't plass the exam. Then we see thatP(S|P)≠P(S|P,D) we can infer that S⊥D|P∉I(P(P,S,D)) which means D can influence S via P.
May this detailed derivation be of hlep.
fuente