¿Cómo introducir gentilmente a epidemiólogos / compañeros de trabajo de salud pública en modelos predictivos avanzados?

8

Viniendo de un fondo de ciencias sociales y epidemiología, mis compañeros de trabajo fueron entrenados en regresión de mínimos cuadrados, regresión logística y análisis de supervivencia. Les gusta ver los intervalos de confianza del 95% y los valores p con los coeficientes de los parámetros, y desconfían de las herramientas predictivas más actuales, como las redes neuronales, CART, embolsado y refuerzo, así como las técnicas de regresión penalizadas.

RobertF
fuente
44
Mi curso corto está dirigido a ese público, entre otros. La información que incluye folletos se encuentra en el sitio web para la versión completa del semestre del curso: biostat.mc.vanderbilt.edu/CourseBios330 . Una de las muchas cosas que cubro es por qué no es razonable que los coeficientes de regresión logística anti-log obtengan odds ratios; esto es en el contexto de permitir que los efectos sean no lineales y obtener, por ejemplo, cocientes de probabilidades de rango intercuartil.
Frank Harrell
2
Me gustan los siguientes 2 libros: Introducción al aprendizaje estadístico: con aplicaciones en R (James, Witten, Hastie y Tibshirani). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (Hastie, Tibshirani, Friedman). También encuentro que los epidemiólogos prefieren los modelos de regresión paramétrica (los modelos de tipo GLM que menciona) para la estimación y la inferencia en comparación con los modelos modernos de regresión semi / no paramétrica. Supongo que porque gran parte de su trabajo se centra en el descubrimiento / explicación de los factores de riesgo / protección, en lugar de generar ajustes de regresión flexibles (para la predicción).
Chris
2
@RobertF: Eso es cierto para la mayoría de las profesiones (¿inercia?). Sin embargo, los epidemiólogos generalmente están interesados ​​en modelos explicativos y no siempre está del todo claro cómo se deberían utilizar enfoques predictivos más novedosos como la penalización cuando, por ejemplo, se desea evaluar la confusión y la interacción en una exposición de interés. Curso de Frank Harrell, libro y su departamento. El sitio contiene gran cantidad de material útil que puede aplicarse también en epidemiología.
Thomas Speidel
1
@RobertF: Esto es algo que me cuesta entender. Si estamos sesgando a propósito las estimaciones de efectos para reducir el sobreajuste, ¿cómo podemos tratarlos como si no estuvieran sesgados cuando queremos interpretarlos?
Thomas Speidel
1
@Chris Una de las herramientas de análisis de supervivencia más comunes que utilizan los epidemiólogos es un modelo semiparamétrico.
Fomite

Respuestas:

6

Voy a pesar como epidemióloga.

Puedo ver cómo se establece la inercia a medida que los investigadores y profesionales en el campo de la atención médica pasan a la gerencia media y más allá y están fuera de contacto con los nuevos desarrollos en estadísticas.

Primero, le recomiendo encarecidamente que no asuma que esto es simplemente inercia, ya sea en la forma de la disciplina que no quiere adoptar nuevas técnicas, o que sus compañeros de trabajo no estén en contacto con los nuevos desarrollos en las estadísticas. Puede ir a conferencias de epidemiología académica donde se está realizando un trabajo nuevo y muy metodológicamente sofisticado, y aún no necesariamente encuentra mucho sobre el modelo predictivo.

La pista está en el nombre. Modelado predictivo .

La epidemiología, como campo, no está particularmente interesada en la predicción por sí misma. En cambio, se centra en desarrollar explicaciones etiológicas para los patrones de enfermedad observados en una población. Los dos están relacionados, pero son distintos, y esto a menudo conduce a una especie de desconfianza filosófica de las técnicas de clasificación y predicción más modernas que intentan maximizar el impacto predictivo de un modelo. En el extremo de esto están las personas que opinan que la selección de variables debe realizarse principalmente con el uso de algo así como un gráfico acíclico dirigido, que podría considerarse lo contrario de hacia dónde se dirige el modelado predictivo.

Esto hace que no forme parte de sus antecedentes, no sea algo con lo que se encuentren mucho en la literatura y, para ser sincero, una alta probabilidad de que su exposición haya sido a través de personas que realmente no entienden los problemas que están tratando. resolver.

Esto, en los comentarios, es un ejemplo perfecto:

Eso arroja a algunas personas: el hecho de que estamos introduciendo a propósito un sesgo en la regresión penalizada para mejorar la precisión predictiva

Casi todos los epidemiólogos que conozco, si los hiciera elegir, elegirían una reducción en el sesgo sobre un aumento en la precisión.

Eso no quiere decir que nunca se mencione. Hay momentos en que los modelos predictivos se utilizan, a menudo en casos clínicos en los que la predicción del resultado de este paciente en particular es de considerable interés, o la detección de brotes, donde estas técnicas son útiles porque no sabemos lo que viene y no podemos hacer etiología argumentos O cuando el objetivo es la predicción, por ejemplo, en muchos modelos de estimación de exposición. Son solo un poco nicho en el campo.

Fomite
fuente
Pido disculpas si esto es un poco ofensivo, no quiero decir que lo sea. ¿Qué parte del entrenamiento de un epidemiólogo es en estadística y / o matemáticas? Puramente desde mi propia experiencia, los epidemiólogos que he conocido (y he conocido a un número considerable) no están bien equipados estadísticamente para usar e interpretar los modelos que han mostrado. Muchos de ellos han ignorado conceptos básicos como la corrección de pruebas múltiples y otros problemas prácticos. Me preguntaba si podrías comentar sobre esto. ¿Simplemente he conocido a malos epidemiólogos, o es un fenómeno de disciplina amplia? De nuevo, espero que no haya sido así
Chris C
1
@ChristC Parte del problema es, en comparación con decir, "Estadístico", epidemiólogo es un campo muy amplio. Hay muchas personas que pueden salirse con las tablas 2x2 y las matemáticas no menos complejas que la división larga, porque para la mayoría de los problemas locales de salud pública, eso es suficiente. 1 / n
Fomite
1
También hay algunas peculiaridades del campo (Charlie Poole en UNC tiene un argumento re: las correcciones de comparación múltiple son un concepto defectuoso en Epidemiología), y cierta falta de educación porque la mayoría de los epi son usuarios de modelos, y para ser sincero, los programas de estadísticas a menudo son completamente desinteresado en enseñarles. 2 / n
Fomite
1
En el otro extremo del espectro, hay algunos metodólogos muy sofisticados que trabajan en problemas centrados en epi: inferencia causal, modelos de sistemas, riesgos competitivos, etc. que son extremadamente conocedores. Todo depende en gran medida del tipo de trabajo que hagan, sus antecedentes, etc. n / n
Fomite
1
@ChrisC Un ejemplo particularmente ilustrativo que acabo de recordar. En la misma conferencia, en la misma sesión , estaba presentando un nuevo enfoque (aunque algo derivado) para modelar la estacionalidad utilizando modelos de regresión con funciones armónicas en ellos. ¿La charla antes que la mía? Gráficos circulares. Ambos muy creíblemente podrían llamarse "Epidemiología".
Fomite