Problemas en la causalidad del libro de Judea Pearl

12

Estoy comenzando a leer Causal Inference in Statistics, A Primer by Judea Pearl et. Alabama. Tengo una maestría en matemáticas, pero nunca he tomado un curso de estadística. Estoy un poco confundido por una de las primeras preguntas de estudio, y no hay nadie a quien pueda preguntar al respecto, así que espero que alguien en este sitio critique mis respuestas por mí. (Esto no es un problema de tarea. Soy un jubilado, solo mantengo mi mente activa). Tenga en cuenta que no hay datos específicos dados en los problemas.

a) Hay dos tratamientos para los cálculos renales, el Tratamiento A y el Tratamiento B. Los médicos tienen más probabilidades de recetar el Tratamiento A en cálculos grandes (y, por lo tanto, más severos) y más probabilidades de recetar el Tratamiento B en cálculos pequeños. ¿Debería un paciente que no conoce el tamaño de su cálculo examinar los datos de la población general o los datos específicos del tamaño al determinar qué tratamiento será más efectivo?

b) Hay dos médicos en un pueblo pequeño. Cada uno ha realizado 100 cirugías en su carrera, que son de dos tipos: una cirugía muy fácil y otra muy difícil. El primer médico realiza la cirugía fácil con mucha más frecuencia que la cirugía difícil y el segundo realiza la cirugía difícil con más frecuencia que la cirugía fácil. Necesita cirugía, pero no sabe si su caso es fácil o difícil. ¿Debería consultar la tasa de éxito de cada médico en todos los casos, o debería consultar las tasas de éxito para los casos fáciles y difíciles por separado, para maximizar la posibilidad de una cirugía exitosa?

En cuanto a la parte a) es razonable suponer que existen inconvenientes en el tratamiento A en comparación con el tratamiento B, o ¿por qué no se prescribe todo el tiempo? Entonces, me parece que no puedo tomar una decisión inteligente sin saber el tamaño de mi cálculo renal. Esperaría que los datos muestren que el Tratamiento A sea más efectivo en cálculos grandes, y al menos tan efectivo en cálculos pequeños, pero no quisiera asumir los riesgos presumidos del Tratamiento A si mi cálculo es pequeño. Suponiendo que los cálculos pequeños casi siempre se pueden tratar con éxito, esperaría que el Tratamiento B muestre una mayor tasa de éxito en la población general, pero no me gustaría adoptar el Tratamiento B si tengo un cálculo grande.

Me parece que los datos son inútiles a menos que sepa el tamaño de mi piedra. ¿Es esta la respuesta a la pregunta, tal vez? Todo el asunto parece bastante inútil, porque no puedo ir a la farmacia y comprar ninguno de los tratamientos sin receta. Mi médico lo recetará, y si no puede (o no quiere) decirme el tamaño de la piedra, cambiaré de médico.

En cuanto a la parte b), está claro que desea ver las tarifas para los procedimientos por separado, pero las tarifas por sí solas no son suficientes. Supongamos que el primer médico realizó la cirugía difícil solo una vez, con un resultado exitoso, y el segundo médico la realizó 37 veces, con 35 éxitos. Estaría terriblemente inclinado a ir con el segundo médico, pero me gustaría saber cómo 35 de 37 se compara con las normas nacionales, y también si las 2 fallas ocurrieron al principio de su carrera (mientras aún estaba aprendiendo) o más recientemente ( después de que comenzó a beber mucho).

¿Es este tipo de discusión lo que requieren los problemas, o se espera una respuesta más simple? Si tengo la suerte de que un instructor lea esto, ¿cómo calificaría mi respuesta?

causality saulspatz
fuente

9

Primero déjame decirte que si calificara tus preguntas, te daría una excelente calificación. Estas son las preguntas introductorias del libro, por lo que aún no tiene todas las herramientas para pensar los problemas, pero ya está demostrando que sabe que debe tener en cuenta la información causal para responderla.

Ahora, en cuanto a la respuesta, observe que la pregunta le pregunta si desea ver los datos agregados o los datos segregados. Resulta que en ambos casos desea ver los datos segregados.

En la pregunta A, el tamaño del cálculo afecta tanto la elección del tratamiento como el estado de salud. Por lo tanto, necesita los datos segregados para eliminar este sesgo y determinar qué tratamiento es más efectivo, ya sea condicional o incondicionalmente. Para saber qué tratamiento es incondicionalmente mejor, necesita los datos segregados para obtener el efecto causal promedio ponderado por la probabilidad del tamaño del cálculo , donde es el estado de salud, la elección del tratamiento y el tamaño del cálculoSi desea saber qué tratamiento es condicionalmente mejor, entonces está claro que también necesita la tabla segregada. $P(Y = 1|do(T)) = \sum_{S}P(Y = 1|T, S)P(S) \neq P(Y =1 |T)$ $Y$ $T$ $S$

Si es extraño pensar en elegir un tratamiento para usted sin conocer el tamaño de la piedra, tal vez sea más fácil entender la pregunta análoga de tener que elegir solo un tratamiento para toda la población (por razones técnicas / presupuestarias no puede elegir) ambos). En este caso, desea saber cuál tiene el mayor efecto de tratamiento promedio en la población en general.

La pregunta B es un problema similar, la dificultad es un factor de confusión, por lo que necesita la tabla segregada para saber qué médico es mejor, tanto condicional como incondicionalmente. Su punto sobre el tamaño de la muestra es completamente válido, en la vida real siempre debe considerar la incertidumbre de la muestra, pero tenga en cuenta que no cambia el hecho de que aún necesitaría la información de los datos segregados.

En cuanto a tu último comentario,

si las 2 fallas ocurrieron temprano en su carrera (mientras todavía estaba aprendiendo) o más recientemente (después de que comenzó a beber en exceso).

En realidad toca un problema profundo en la inferencia causal, que es la suposición de invariancia . Tomemos el caso donde el médico comenzó a beber mucho en este momento. En este caso, los datos antes y después de ese evento no provienen del mismo modelo causal, por lo que en realidad necesitaría más información y más suposiciones causales para hacer inferencia en este caso.

Carlos Cinelli
fuente

2

Gracias. Sus comentarios sobre el primer problema fueron especialmente esclarecedores.

saulspatz

3

He leído Pearl's Causality , 2nd ed (2009) pero no el Manual al que te refieres aquí. Parece que se está acercando a estas preguntas de estudio con exactamente la mentalidad correcta. Está obteniendo su propio conocimiento de fondo para completar estos escenarios con información causal esencial . También está atacando directamente lo que me parecen conceptos bastante perversos de los problemas de decisión tal como se presentan, y está tratando de reemplazarlos con problemas más significativos y realistas.

David C. Norris
fuente

2

+1 para la frase "presunciones bastante perversas". Por supuesto, los problemas de los libros de texto nunca son completamente realistas, por razones obvias, pero no estaba claro para mí qué tan realistas se suponía que debían ser. Supongo que las cosas se aclararán a medida que continúe leyendo.

saulspatz

Problemas en la causalidad del libro de Judea Pearl

Respuestas: