¿Se puede usar la validación cruzada para la inferencia causal?

37

En todos los contextos, estoy familiarizado con la validación cruzada, solo se usa con el objetivo de aumentar la precisión predictiva. ¿Se puede extender la lógica de validación cruzada al estimar las relaciones imparciales entre variables?

Si bien este documento de Richard Berk demuestra el uso de una muestra reservada para la selección de parámetros en el modelo de regresión "final" (y demuestra por qué la selección de parámetros por pasos no es una buena idea), todavía no veo cómo eso garantiza exactamente estimaciones imparciales del efecto que X tiene sobre Y, más que elegir un modelo basado en la lógica y el conocimiento previo del tema.

Le pido a la gente que cite ejemplos en los que se usó una muestra reservada para ayudar en la inferencia causal, o ensayos generales que pueden ayudar a mi comprensión. Tampoco dudo que mi concepción de la validación cruzada es ingenua, y si es así lo digo. Parece improvisado que el uso de una muestra reservada sería susceptible de inferencia causal, pero no conozco ningún trabajo que haga esto o cómo lo harían.

Cita para el Berk Paper:

Inferencia estadística después de la selección del modelo por: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, vol. 26, núm. 2. (1 de junio de 2010), págs. 217-236.

Versión PDF aquí

Esta pregunta sobre el análisis exploratorio de datos en pequeños estudios de muestra por chl provocó esta pregunta.

Andy W
fuente

Respuestas:

19

Creo que es útil revisar lo que sabemos sobre validación cruzada. Los resultados estadísticos en torno a CV se dividen en dos clases: eficiencia y consistencia.

La eficiencia es lo que generalmente nos preocupa cuando construimos modelos predictivos. La idea es que usemos CV para determinar un modelo con garantías asimétricas con respecto a la función de pérdida. El resultado más famoso aquí se debe a Stone 1977 y muestra que LOO CV es asintóticamente equivalente a AIC. Pero, Brett proporciona un buen ejemplo donde puede encontrar un modelo predictivo que no le informa sobre el mecanismo causal.

La consistencia es lo que nos preocupa si nuestro objetivo es encontrar el modelo "verdadero". La idea es que usemos CV para determinar un modelo con garantías asintóticas que, dado que nuestro espacio modelo incluye el modelo verdadero, lo descubriremos con una muestra lo suficientemente grande. El resultado más famoso aquí se debe a Shao 1993 con respecto a los modelos lineales, pero como afirma en su resumen, su "descubrimiento sorprendente" es opuesto al resultado para LOO. Para modelos lineales, puede lograr consistencia usando LKO CV siempre que como n . Más allá de los modelos lineales, es más difícil obtener resultados estadísticos. k/n1n

Pero suponga que puede cumplir con los criterios de coherencia y su procedimiento de CV conduce al modelo verdadero: . ¿Qué hemos aprendido sobre el mecanismo causal? Simplemente sabemos que hay una correlación bien definida entre Y y X , que no dice mucho acerca de las afirmaciones causales. Desde una perspectiva tradicional, debe presentar un diseño experimental con el mecanismo de control / manipulación para hacer afirmaciones causales. Desde la perspectiva del marco de Judea Pearl, puede hacer suposiciones causales en un modelo estructural y usar el cálculo basado en la probabilidad de los contrafactuales para derivar algunas afirmaciones, pero necesitará satisfacer ciertas propiedades . Y=βX+eYX

Quizás podría decir que CV puede ayudar con la inferencia causal al identificar el modelo verdadero (¡siempre que pueda satisfacer los criterios de consistencia!). Pero solo te lleva tan lejos; El CV por sí solo no está haciendo ningún trabajo en ninguno de los marcos de inferencia causal.

Si le interesa más lo que podemos decir con la validación cruzada, recomendaría Shao 1997 sobre el ampliamente citado artículo de 1993:

Puede echar un vistazo a los principales resultados, pero es interesante leer la discusión que sigue. Pensé que los comentarios de Rao y Tibshirani, y de Stone, fueron particularmente perspicaces. Pero tenga en cuenta que si bien discuten la coherencia, nunca se hacen afirmaciones sobre la causalidad.

ars
fuente
Gracias por todo lo que las referencias, en especial las respuestas Judea Pearl (que tendrá que comprar el libro en base a toda la información maravillosa en esos ensayos de respuesta cortos.)
Andy W
1
¡Los comentarios para downvote son siempre bienvenidos!
chl
18

Esta es una pregunta realmente interesante y no ofrezco citas específicas. Sin embargo, en general, diría que NO, en sí mismo, la validación cruzada no ofrece ninguna idea de la causalidad. En ausencia de un experimento diseñado, el tema de la causalidad es siempre incierto. Como sugiere, la validación cruzada puede y mejorará la precisión predictiva. Esto, solo, no dice nada sobre la causalidad.

En ausencia de un experimento diseñado, la inferencia causal requeriría un modelo que incluya todos los predictores relevantes, algo que rara vez podemos garantizar en un estudio observacional. Además, una variable de retraso simple, por ejemplo (o cualquier cosa altamente correlacionada con cualquier resultado que intentamos predecir) produciría un buen modelo y uno que podría validarse en múltiples muestras. Sin embargo, eso no significa que podamos inferir causalidad. La validación cruzada asegura la repetibilidad en las predicciones y nada más. La causalidad es una cuestión de diseño y lógica.

EDITAR: Aquí hay un ejemplo para ilustrar. Podría construir un modelo con buena precisión predictiva que prediga la población de una ciudad en función de la cantidad de dinero que la ciudad gasta en la eliminación de basura. Podría usar la validación cruzada para probar la precisión de ese modelo, así como otros métodos para mejorar la precisión de la predicción y obtener parámetros más estables. Ahora, si bien este modelo funciona muy bien para la predicción, la lógica causal es incorrecta: la dirección causal se invierte. No importa lo que la gente del Departamento de Obras Públicas pueda argumentar, aumentar su presupuesto para la eliminación de basura no sería una buena estrategia para aumentar la población de la ciudad (la interpretación causal).

Los problemas de precisión y repetibilidad de un modelo están separados de nuestra capacidad de hacer inferencias causales sobre las relaciones que observamos. La validación cruzada nos ayuda con lo primero y no con lo último. Ahora, si estamos estimando un modelo "correcto" en términos de especificar una relación casual (por ejemplo, tratando de determinar cuál debería ser nuestro presupuesto de eliminación de basura en función de nuestra población esperada el próximo año), la validación cruzada puede ayudarnos a tener mayor confianza en nuestra estimación de ese efecto. Sin embargo, la validación cruzada no hace nada para ayudarnos a elegir el modelo "correcto" con respecto a las relaciones causales. Nuevamente, aquí debemos confiar en el diseño del estudio, nuestra experiencia en el tema, la teoría y la lógica.

Brett
fuente
1
Entonces, ¿no cree que la repetibilidad en las estimaciones de efectos pueda ser útil? Aunque no está solo en su concepción de lo que es la prueba de causalidad, creo que es bastante limitado. Nunca podremos probar indefinidamente una relación causal, incluso con un experimento, sin todas las pruebas en el universo. Por lo tanto, en mi opinión, el objetivo es proporcionar evidencia de que cualquier relación que estimamos es lo más cercana a la verdad dada la información que conocemos. Dado que, ¿no cree que la repetibilidad en la predicción de un conjunto de entrenamiento a una muestra reservada podría ser un control útil sobre las inferencias realizadas?
Andy W
Agradezco sus comentarios también, y estoy completamente de acuerdo en que las inferencias dependen en gran medida de la lógica y el diseño de la investigación.
Andy W
1
Andy, he editado mi publicación para abordar tus comentarios. Además, no quiero sugerir que la inferencia causal no se pueda hacer fuera del contexto de un experimento diseñado. Sin embargo, es más difícil y menos seguro en los estudios observacionales y no deberíamos buscar modelos de procedimientos de construcción para ayudarnos con ese problema. Más bien, deberíamos tratar de comprender mejor los problemas por los cuales estamos tratando de entender las relaciones causales.
Brett
Estoy de acuerdo con casi todo lo que dices, excepto que los problemas de precisión y repetibilidad son esenciales para hacer inferencias correctas ante la duda. Puedo darles a los expertos el beneficio de la duda de que están construyendo modelos lógicos. Lo que me preocupa es la repetibilidad de los hallazgos en muchos contextos de observación. Aunque estoy de acuerdo en que la repetibilidad no necesariamente tiene en cuenta las influencias confusas que se tratan mejor en entornos experimentales.
Andy W
(+1) Mis disculpas. Parece que también olvidé votar tu muy buena respuesta. Ya voté sus útiles comentarios.
chl
13

Me parece que su pregunta generalmente aborda diferentes tipos de validación para un modelo predictivo: la validación cruzada tiene algo más que ver con la validez interna , o al menos la etapa de modelado inicial, mientras que establecer vínculos causales en una población más amplia está más relacionado a validez externa. Con eso (y como una actualización siguiendo el comentario agradable de @ Brett), quiero decir que generalmente construimos un modelo a partir de una muestra de trabajo, suponiendo un modelo conceptual hipotético (es decir, especificamos las relaciones entre los predictores y los resultados de interés), e intentamos obtener estimaciones confiables con una tasa de error de clasificación mínima o un error de predicción mínimo. Con suerte, cuanto mejor se desempeñe el modelo, mejor nos permitirá predecir resultados en datos no vistos; aún así, CV no dice nada sobre la "validez" o adecuación de los vínculos causales hipotéticos. Ciertamente podríamos lograr resultados decentes con un modelo en el que algunos efectos de moderación y / o mediación se descuidan o simplemente no se conocen de antemano.

Mi punto es que cualquiera que sea el método que use para validar su modelo (y el método de reserva no es el mejor, pero aún se usa ampliamente en estudios epidemiológicos para aliviar los problemas que surgen de la construcción de modelos paso a paso), usted trabaja con la misma muestra (que suponemos que es representativo de una población más grande). Por el contrario, la generalización de los resultados y los vínculos causales inferidos de esta manera a nuevas muestras o una población plausiblemente relacionada generalmente se realiza mediante estudios de replicación . Esto garantiza que podamos probar de manera segura la capacidad predictiva de nuestro modelo en una "superpoblación" que presenta una gama más amplia de variaciones individuales y puede exhibir otros factores potenciales de interés.

Su modelo puede proporcionar predicciones válidas para su muestra de trabajo, e incluye todos los posibles factores de confusión que pueda pensar; sin embargo, es posible que no funcione tan bien con los datos nuevos, solo porque aparecen otros factores en la ruta causal que no se identificaron al construir el modelo inicial. Esto puede suceder si algunos de los predictores y los vínculos causales inferidos a partir de ellos dependen del centro de ensayo particular donde se reclutaron pacientes, por ejemplo.

En epidemiología genética, muchos estudios de asociación de todo el genoma no se replican simplemente porque estamos tratando de modelar enfermedades complejas con una visión demasiado simplificada sobre las relaciones causales entre los marcadores de ADN y el fenotipo observado, mientras que es muy probable que el gen genético (epistasis), las enfermedades genéticas (pleiotropía), el entorno genético y la subestructura de la población entran en juego, pero véase, por ejemplo , Validar, aumentar y refinar las señales de asociación de todo el genoma(Ioannidis et al., Nature Reviews Genetics, 2009 10). Por lo tanto, podemos construir un modelo de rendimiento para tener en cuenta las variaciones cruzadas observadas entre un conjunto de marcadores genéticos (con un tamaño de efecto muy bajo y disperso) y un patrón multivariado de fenotipos observados (por ejemplo, volumen de materia blanca / gris o actividades localizadas en el cerebro como se observa a través de fMRI, respuestas a la evaluación neuropsicológica o inventario de personalidad), aún así no funcionará como se esperaba en una muestra independiente.

En cuanto a una referencia general sobre este tema, puedo recomendar el capítulo 17 y la Parte III de Modelos de predicción clínica , de EW Steyerberg (Springer, 2009). También me gusta el siguiente artículo de Ioannidis:

Ioannidis, JPA, ¿Por qué los hallazgos de investigación más publicados son falsos? PLoS Med. 2005 2 (8): e124

chl
fuente
1
@chl: ¿Puede explicar su declaración en el primer párrafo sobre la validez interna y externa? En la tradición con la que estoy familiarizado: la validez interna se refiere a la capacidad de afirmar relaciones de causa y efecto entre las variables dentro de la muestra particular; La validez externa se trata de la capacidad de generalizar de una muestra a otras personas, lugares y tiempos. Tradicionalmente, la validación cruzada se trata de esto último y, por lo tanto, según la definición anterior sobre la validez externa, mientras que usted afirma que se trata de la validez interna. ¿Entendí mal su declaración?
Brett
1
@Brett Estaba pensando en el CV como una técnica estadística para evitar el sobreajuste o para proporcionar una medida de precisión de predicción en la muestra de trabajo (por lo tanto, no necesariamente como una herramienta dedicada para demostrar la validez interna). No estaba muy claro, gracias o apuntando eso. Estoy de acuerdo en que esto se usa para generalizar sobre la muestra en cuestión, pero creo que no tiene nada que ver con la inferencia causal (CV no prueba nada sobre los vínculos causales tal como se modela en la muestra de trabajo). Comparto su opinión sobre la validez externa, pero para demostrarlo necesitamos otras muestras, ¿no?
chl
1
Podrías aclarar ese primer párrafo. Creo que estás tratando de decir que el CV no tiene validez interna. Esa es una cuestión para otros procesos. Pero, si tenemos una buena validez interna por otras razones, sea lo que sea, CV ayudará a estimar ese efecto con mayor precisión entre personas, lugares y tiempos, es decir, mejorar la validez externa. Todavía no puedo pensar en ninguna forma en que el CV nos ayude a hacer afirmaciones causales sobre las relaciones entre variables, la pregunta de validez interna en sí misma, solo para ayudar a generalizar una relación causal establecida.
Brett
1
@Brett Creo que sus comentarios a esta pregunta son muy pertinentes y resumen muy bien algunos de los problemas. Dudo que ayude a la confusión entre la validez interna y externa en este punto, pero el ejemplo de epidemiología genética de CHL es en realidad un problema de validez interna, no de validez externa (excepto entre la heterogeneidad del conjunto de datos (o la subestructura de la población), pero esa OMI es de menos preocupación que la validez interna en estos ejemplos).
Andy W
2
La definición de Brett entre validez interna y externa es precisa, pero para nuestros propósitos ayudará a definirla en diferentes términos. La validez externa solo se refiere a la muestra y cómo esa muestra se relaciona con otras poblaciones. La validez interna se refiere a varios aspectos sobre los efectos estimados y las construcciones utilizadas para estimar esos efectos.
Andy W
12

Esta es una buena pregunta, pero la respuesta es definitivamente no: la validación cruzada no mejorará la inferencia causal. Si tiene un mapeo entre síntomas y enfermedades, la validación cruzada ayudará a asegurar que su modelo coincida mejor con su distribución conjunta que si simplemente hubiera ajustado su modelo a todo el conjunto de datos sin procesar, pero nunca puede decirle nada sobre La direccionalidad de la causalidad.

La validación cruzada es muy importante y vale la pena estudiarla, pero no hace más que evitar que se ajuste demasiado al ruido en su conjunto de datos. Si desea comprenderlo más, le sugiero el Capítulo 7 de ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf

John Myles White
fuente
Gracias por la referencia. Entonces, digamos que no le preocupa la selección del modelo, ¿podría ser útil la validación cruzada de las estimaciones del efecto del conjunto de datos de entrenamiento con el conjunto de datos de espera?
Andy W
Podría ser, pero yo diría que básicamente estás haciendo bootstrapping (o alguna variación de eso) en ese punto.
John Myles White
Estoy de acuerdo, y creo que hay otras cosas que se hacen regularmente que reflejan este mismo tipo de lógica (como las pruebas de especificidad de subconjuntos o variables dependientes no equivalentes). Simplemente hice la pregunta porque imaginé que existían tratamientos más formales.
Andy W
¡Los comentarios para downvote son siempre bienvenidos!
chl
¡Este libro es el regalo que sigue dando!
hayd
6

Para responder al seguimiento que @Andy publicó como respuesta aquí ...

Aunque no podría decir qué estimación es correcta y cuál es falsa, ¿la inconsistencia en las estimaciones de convicción de asalto y convicción de arma entre los dos modelos arroja dudas de que tenga un verdadero efecto causal en la duración de la oración?

Creo que lo que quiere decir es que la discrepancia en las estimaciones de los parámetros nos da razones para creer que ninguna de las estimaciones de los parámetros representa el verdadero efecto causal. Estoy de acuerdo con eso, aunque ya teníamos muchas razones para ser escépticos de que tal modelo generaría el verdadero efecto causal.

Aquí está mi opinión: el ajuste excesivo de datos es una fuente de estimaciones de parámetros sesgados, y sin ninguna razón para creer que este sesgo compensa otras fuentes de sesgo en la estimación de un efecto causal particular, entonces debe ser mejor, en promedio, estimar los efectos causales sin sobreajustar los datos. La validación cruzada evita el sobreajuste, por lo que, en promedio, debería mejorar las estimaciones de los efectos causales.

Pero si alguien está tratando de convencerme de que crea su estimación de un efecto causal a partir de los datos de observación, probar que no han sobreajustado sus datos es de baja prioridad a menos que tenga una buena razón para sospechar que es probable que su estrategia de modelado tenga sobre-ajuste

En las aplicaciones de ciencias sociales con las que trabajo, estoy mucho más preocupado por cuestiones sustantivas, problemas de medición y controles de sensibilidad. Por controles de sensibilidad me refiero a estimar variaciones en el modelo donde se agregan o eliminan términos, y estimar modelos con interacciones que permiten que el efecto de interés varíe entre los subgrupos. ¿Cuánto afectan estos cambios al modelo estadístico la estimación del parámetro que queremos interpretar causalmente? ¿Las discrepancias en la estimación de este parámetro a través de las especificaciones del modelo o subgrupos son comprensibles en términos de la historia causal que está tratando de contar, o hacen alusión a un efecto impulsado por, por ejemplo, la selección?

De hecho, antes de ejecutar estas especificaciones alternativas. Escriba cómo cree que cambiará su estimación de parámetros. Es genial si su estimación de parámetros de interés no varía mucho entre subgrupos o especificaciones; en el contexto de mi trabajo, eso es más importante que la validación cruzada. Pero otros temas importantes que afectan mi interpretación son aún más importantes.

Michael Bishop
fuente
Muchas gracias por sopesar! Su perspectiva ciertamente pone una motivación muy directa para la validación cruzada en modelos causales que nunca me había formulado de manera convincente. OMI, incluso te estás vendiendo un poco corto usando la etiqueta de ajuste excesivo. Por ejemplo, en el conjunto exploratorio inicial, puedo observar el ajuste del modelo entre ecuaciones usando una variable independiente en la escala inicial versus la escala logarítmica. Decido que el modelo con escala de registro se ajusta mejor, y luego lo uso en el modelo de espera. Esto normalmente no se consideraría un ajuste excesivo (elegir entre uno u otro), cont ...
Andy W
pero aún se ajusta al paradigma que sugirió en su aquí está mi párrafo de toma.
Andy W
5

Agradezco a todos por sus respuestas, pero la pregunta se ha convertido en algo que no tenía la intención de hacer, siendo principalmente un ensayo sobre la noción general de inferencia causal sin una respuesta correcta.

Inicialmente, pretendía que la pregunta sonara a la audiencia en busca de ejemplos del uso de la validación cruzada para la inferencia causal. Asumí que tales métodos existían, ya que la noción de usar una muestra de prueba y mantener la muestra para evaluar la repetibilidad de las estimaciones del efecto me parecía lógica. Como John señaló, lo que estaba sugiriendo no es diferente al bootstrapping, y diría que se parece a otros métodos que usamos para validar los resultados, como pruebas de especificidad de subconjuntos o variables dependientes no equivalentes (el bootstrapping relaja los supuestos paramétricos de los modelos y el subconjunto las pruebas de una manera más general se usan como una verificación de que los resultados son lógicos en diversas situaciones). Ninguno de estos métodos cumple con los estándares de prueba de otras respuestas para la inferencia causal, pero creo que todavía son útiles para la inferencia causal.

El comentario de CHL es correcto porque mi afirmación para usar la validación cruzada es una verificación de la validez interna para ayudar en la inferencia causal. Pero pido que descartemos la distinción entre validez interna y externa por ahora, ya que no hace nada para promover el debate. El ejemplo de CHL de estudios de genoma completo en epidemiología Yo consideraría un excelente ejemplo de validez interna deficiente, lo que hace que las inferencias fuertes sean inherentemente dudosas. Creo que los estudios de asociación del genoma son en realidad un ejemplo de lo que pedí. ¿Crees que las inferencias entre genes y enfermedades se mejoran mediante el uso de validación cruzada (en lugar de simplemente incluir todos los marcadores en un modelo y ajustar los valores de p en consecuencia)?

A continuación, pegué una copia de una tabla en el artículo de Berk que cité en mi pregunta. Si bien se demostró que estas tablas demuestran la falsa lógica del uso de criterios de selección por pasos e inferencia causal en el mismo modelo, supongamos que no se utilizaron criterios de selección de modelo, y los parámetros tanto en la muestra de entrenamiento como de espera se determinaron a priori. Esto no me parece un resultado poco realista. Aunque no podría decir qué estimación es correcta y cuál es falsa, ¿la inconsistencia en las estimaciones de convicción de asalto y convicción de arma entre los dos modelos arroja dudas de que tenga un verdadero efecto causal en la duración de la oración? ¿Conocer esa variación no es útil? Si no perdemos nada al tener una muestra de retención para probar nuestro modelo, ¿por qué no podemos usar la validación cruzada para mejorar la inferencia causal (o me estoy perdiendo lo que estamos perdiendo al usar una muestra de retención?) texto alternativo

Andy W
fuente
1
Se agradecería una nota sobre por qué esto fue rechazado.
Andy W
2
Apoyaré a @Andy y sugeriré dejar un comentario cuando haga una votación negativa: siempre es útil saber qué está mal, si lo hay. Especialmente en este caso: Andy W regresó con comentarios extendidos de CW que, en mi opinión, agregan más apoyo a la pregunta original. ¡No hay necesidad de rechazar nada aquí!
chl
1
¿El error estándar / intervalo de confianza ya no le da esta indicación de variabilidad? las estimaciones de su conjunto de pruebas están contenidas dentro de sus intervalos de confianza estándar de su conjunto de entrenamiento. Pensé que los pequeños errores estándar y los IC estrechos son importantes para la causalidad.
chanceislogic
Sí @probabilityislogic tienes razón. Creo que cuando hice este punto no fue para una situación en la que aplicas CV a un conjunto de datos ya disponible, sino a un conjunto de datos recopilado en otro momento. Pensé que CV podría ser útil aquí para reforzar las declaraciones causales, pero aún no me queda claro si ese es el caso. Solo he visto que podría decirse que es útil en términos de selección de modelo, no validar el modelo de ninguna manera (por ejemplo, mi modelo en estos nuevos datos produce un ajuste muy cercano).
Andy W
2
@ AriB.Friedman, me recuerda los signos filosóficos de Ed Tufte , la correlación no es causalidad, pero sin duda ayuda .
Andy W
1

Supongo que esta es una forma intuitiva de pensar sobre la relación entre CV e inferencia causal: (corríjame si estoy equivocado)

Siempre pienso en CV como una forma de evaluar el rendimiento de un modelo en las predicciones. Sin embargo, en inferencia causal estamos más preocupados por algo equivalente a la Navaja de afeitar de Occam (parsimonia), por lo tanto, CV no ayudará.

Gracias.

suncoolsu
fuente
La razón por la que planteé la pregunta es porque no tenemos que pensar en la validación cruzada como una forma única de evaluar la capacidad predictiva de un modelo. No es raro preocuparse de que los resultados de un modelo (y, por lo tanto, las inferencias hechas) sean artefactos por muchas razones potenciales. Por lo tanto, queremos examinar la solidez de los resultados, y pensé que la validación cruzada podría ser un contexto útil para examinar la solidez de los resultados.
Andy W
Perdón por la mala interpretación.
suncoolsu
No hay necesidad de disculpas. Soy el que sugiere algo aparentemente marginal, y la validación cruzada aparentemente siempre se usa en el contexto que sugieres.
Andy W
@suncoolsu, cuando pienso en la inferencia causal, nunca me preocupo por la maquinilla de afeitar o la parsimonia de Occam, ¿podrías explicarme la conexión?
Michael Bishop