Una discusión más definitiva sobre la selección de variables.

Antecedentes

Estoy haciendo investigación clínica en medicina y he tomado varios cursos de estadística. Nunca publiqué un artículo usando regresión lineal / logística y me gustaría hacer la selección de variables correctamente. La interpretabilidad es importante, por lo que no es necesario utilizar técnicas de aprendizaje automático. He resumido mi comprensión de la selección de variables: ¿a alguien le importaría arrojar luz sobre alguna idea falsa? Encontré dos (1) publicaciones de CV similares (2) a esta, pero no respondieron completamente mis preocupaciones. Cualquier idea sería muy apreciada! Tengo 3 preguntas principales al final.

Problema y discusión

Mi problema típico de regresión / clasificación tiene 200-300 observaciones, una tasa de eventos adversos del 15% (si es una clasificación) e información sobre 25 de las 40 variables que se afirma que tienen un efecto "estadísticamente significativo" en la literatura o hacen plausible sentido por dominio de conocimiento.

Pongo "estadísticamente significativo" entre comillas, porque parece que todos y su madre usan regresión gradual, pero a Harrell (3) y Flom (4) no parece gustarles por varias buenas razones. Esto está respaldado por una discusión en el blog Gelman (5). Parece que el único momento real que es aceptable paso a paso es si este es un análisis verdaderamente exploratorio, o si uno está interesado en la predicción y tiene un esquema de validación cruzada involucrado. Especialmente dado que muchas comorbilidades médicas sufren de colinealidad Y los estudios sufren de un tamaño de muestra pequeño, entiendo que habrá muchos falsos positivos en la literatura; Esto también hace que sea menos probable que confíe en la literatura para incluir posibles variables.

Otro enfoque popular es utilizar una serie de regresiones / asociaciones univariadas entre predictores y variables independientes como punto de partida. debajo de un umbral particular (digamos, p <0.2). Esto parece incorrecto o al menos engañoso por los motivos descritos en esta publicación de StackExchange (6).

Por último, un enfoque automatizado que parece popular en el aprendizaje automático es utilizar penalizaciones como L1 (Lasso), L2 (Ridge) o L1 + L2 combo (Elastic Net). Tengo entendido que no tienen las mismas interpretaciones fáciles que OLS o regresión logística.

Gelman + Hill propone lo siguiente:

En mi curso de Estadísticas, también recuerdo haber usado pruebas F o Análisis de desviación para comparar modelos completos y anidados para hacer una selección de modelo / variable variable por variable. Esto parece razonable, pero ajustar modelos anidados secuenciales sistemáticamente para encontrar variables que causen la mayor caída en la desviación por df parece que podría automatizarse fácilmente (así que estoy un poco preocupado) y también parece que sufre problemas del orden en el que prueba la inclusión variable. Según tengo entendido, esto también debería complementarse investigando la multicolinealidad y las gráficas residuales (residual versus predicha).

Preguntas:

¿Es el resumen de Gelman el camino a seguir? ¿Qué agregarías o cambiarías en su estrategia propuesta?
Además de pensar puramente en posibles interacciones y transformaciones (lo que parece muy propenso a sesgos / errores / omisión), ¿hay otra forma de descubrir posibles? Se me recomendó la spline de regresión adaptativa multivariante (MARS) , pero se me informó que las no linealidades / transformaciones no se traducen en las mismas variables en un modelo de regresión estándar.
Supongamos que mi objetivo es muy simple: diga: "Me gustaría estimar la asociación de X1 en Y, solo contabilizando X2". ¿Es adecuado simplemente retroceder Y ~ X1 + X2, informar el resultado, sin referencia a la capacidad predictiva real (como podría medirse mediante validación cruzada RMSE o medidas de precisión)? ¿Cambia esto dependiendo de la frecuencia del evento o del tamaño de la muestra o si R ^ 2 es súper bajo (soy consciente de que R ^ 2 no es bueno porque siempre se puede aumentar al sobreajustar)? En general, estoy más interesado en la inferencia / interpretación que en optimizar el poder predictivo.

Conclusiones de ejemplo:

"Controlar para X2, X1 no se asoció estadísticamente significativamente con Y en relación con el nivel de referencia de X1". (coeficiente de regresión logística)
"X1 no fue un predictor estadísticamente significativo de Y ya que en el modelo la caída de la desviación no fue suficiente en relación con el cambio en df". (Análisis de la desviación)

¿Es siempre necesaria la validación cruzada? En ese caso, uno también podría querer hacer un balance de clases a través de SMOTE, muestreo, etc.

regression feature-selection model-selection sharper_image
fuente

Referencias 1. stats.stackexchange.com/questions/56725/… 2. stats.stackexchange.com/questions/221907/… 3. stats.stackexchange.com/questions/18214/… 4. lexjansen.com/pnwsug/2008/ DavidCassell-StoppingStepwise.pdf 5. andrewgelman.com/2014/06/02/hate-stepwise-regression 6. stats.stackexchange.com/questions/138860/…

sharper_image

Si algo se puede automatizar o no (en la actualidad, antes del advenimiento de una IA fuerte) me parece una pista falsa.

gung - Restablece a Monica

+1 para una pregunta muy reflexiva. Una cosa que su revisión demuestra es que no hay una receta estándar o un libro de cocina para la selección de variables. Todos tienen un enfoque diferente y un conjunto de "mejores" prácticas. Luego, existe una distinción muy importante entre un modelo teórico o de población versus uno empíricamente impulsado: estos marcos diferentes rara vez se alinean y es fácil combinarlos. Su preocupación por "faltar" algo no es infundada, pero la realidad es que simplemente no existe una respuesta concluyente e inequívoca. Los enfoques que ha revisado están ampliamente documentados, elija uno

Mike Hunter

Harrell, Flom y Kolassa; está arreglado entonces.

gung - Restablecer Monica

Re Gelman & Hill's 4 (b): Harrell, RMS 1st edn, p60: "Un problema final con la selección de variables se ilustra al comparar este enfoque [sc. Paso a paso] con la forma sensata en que muchos economistas desarrollan modelos de regresión. Los economistas utilizan con frecuencia la estrategia de eliminar solo aquellas variables que son insignificantes y cuyos coeficientes de regresión tienen una dirección no sensible ". Y creo recordar que Steyerberg iba a escribir un artículo sobre eso. [Intentará encontrar la referencia. cuando tenga oportunidad.]

Scortchi - Restablece a Monica

Respuestas:

Andrew Gelman es definitivamente un nombre respetado en el mundo estadístico. Sus principios se alinean estrechamente con algunas de las investigaciones de modelos causales que han realizado otros "grandes nombres" en el campo. Pero creo que dado su interés en la investigación clínica, debería consultar otras fuentes.

Estoy usando la palabra "causal" sin apretar (al igual que otros) porque hay una línea muy fina que debemos trazar entre realizar "inferencia causal" a partir de datos de observación y afirmar relaciones causales entre variables. Todos estamos de acuerdo en que los ECA son la principal forma de evaluar la causalidad. Raramente nos ajustamos a algo en tales ensayos según el supuesto de aleatorización, con pocas excepciones ( Senn, 2004 ). Los estudios observacionales tienen su importancia y utilidad ( Weiss, 1989 ) y el enfoque basado en contrafactual para hacer inferencia a partir de datos observacionales se acepta como un enfoque filosóficamente sólido para hacerlo ( Höfler, 2005 ). A menudo se aproxima mucho a la eficacia de uso medida en ECA ( Anglemyer, 2014 ).

Por lo tanto, me enfocaré en estudios a partir de datos de observación. Mi punto de discusión con las recomendaciones de Gelman es: todos los predictores en un modelo y su relación causal postulada entre una sola exposición de interés y un único resultado de interés deben especificarse a priori . Introducir y excluir covariables en función de su relación entre un conjunto de hallazgos principales en realidad está induciendo un caso especial de 'cuadrícula estadística de Munchausen' ( Martin, 1984 ). Algunas revistas (y la tendencia se está poniendo de moda) rechazarán sumariamente cualquier artículo que use regresión gradual para identificar un modelo final ( Babyak, 2004 ), y creo que el problema se ve de manera similar aquí.

La justificación para la inclusión y exclusión de covariables en un modelo se discute en: Judea Pearl's Causality ( Pearl, 2002 ). Es quizás uno de los mejores textos para comprender los principios de inferencia estadística, regresión y ajuste multivariado. También prácticamente cualquier cosa de Sanders y Groenlandia es esclarecedora, en particular su discusión sobre la confusión que lamentablemente se omite de esta lista de recomendaciones ( Groenlandia et al. 1999) A las covariables específicas se les pueden asignar etiquetas basadas en una relación gráfica con un modelo causal. Las designaciones como variables de pronóstico, confusión o precisión justifican la inclusión como covariables en los modelos estadísticos. Se deben omitir los mediadores, colisionadores o variables más allá de la vía causal. Las definiciones de estos términos se hacen rigurosas con muchos ejemplos en Causality.

Dado este pequeño antecedente, abordaré los puntos uno por uno.

Este es generalmente un enfoque sólido con una advertencia importante: estas variables NO deben ser mediadores del resultado. Si, por ejemplo, está inspeccionando la relación entre fumar y el estado físico, y se ajusta a la función pulmonar, eso está atenuando el efecto del tabaquismo porque su impacto directo en el estado físico es el de reducir la función pulmonar. Esto NO deberíaconfundirse con confusión donde la tercera variable es causal del predictor de interés Y el resultado de interés. Los factores de confusión deben incluirse en los modelos. Además, el sobreajuste puede causar múltiples formas de sesgo en los análisis. Los mediadores y los factores de confusión se consideran como tales NO por lo que se encuentra en los análisis, sino por lo que USTED CREE que es el experto en la materia (SME). Si tiene 20 observaciones por variable o menos, o 20 observaciones por evento en análisis logísticos o tiempo hasta el evento, debe considerar métodos condicionales.
Este es un excelente enfoque de ahorro de energía que no es tan complicado como el ajuste de puntaje de propensión o SEM o análisis factorial. Definitivamente recomendaría hacer esto siempre que sea posible.
No estoy de acuerdo de todo corazón. El punto de ajuste para otras variables en los análisis es crear estratos para los que sean posibles las comparaciones. La especificación incorrecta de las relaciones de confusión generalmente no conduce a análisis imparciales, por lo que la confusión residual de los términos de interacción omitidos no es, en mi experiencia, un gran problema. Sin embargo, podría considerar los términos de interacción entre el predictor de interés y otras variables como un análisis post-hoc. Este es un procedimiento de generación de hipótesis destinado a refinar cualquier posible hallazgo (o falta del mismo) como a. potencialmente perteneciente a un subgrupo o b. que implica una interacción mecanicista entre dos factores ambientales y / o genéticos.
También estoy en desacuerdo con esto de todo corazón. No coincide con el enfoque de regresión basado en análisis confirmatorio. Eres la PYME. Los análisis deben ser informados por la PREGUNTA y no por los DATOS. Exprese con confianza lo que cree que está sucediendo, basándose en una representación pictoral del modelo causal (utilizando un DAG y principios relacionados de Pearl et. Al.), Luego elija los predictores para su modelo de interés, ajuste y debate. Solo como un análisis secundario debe considerar este enfoque, incluso en absoluto.

El papel del aprendizaje automático en todo esto es muy discutible. En general, el aprendizaje automático se centra en la predicción y no en la inferencia, que son enfoques distintos para el análisis de datos. Tiene razón en que la interpretación de los efectos de la regresión penalizada no se interpreta fácilmente para una comunidad no estadística, a diferencia de las estimaciones de un OLS, donde los IC del 95% y las estimaciones de coeficientes proporcionan una medida de asociación.

La interpretación del coeficiente de un modelo OLS Y ~ X es sencilla: es una pendiente, una diferencia esperada en los grupos de comparación Y que difieren en 1 unidad en X. En un modelo ajustado multivariado Y ~ X1 + X2 modificamos esto como condicional pendiente: es una diferencia esperada en los grupos de comparación Y que difieren en 1 unidad en X1 que tienen el mismo valor de X2. Geométricamente, el ajuste para X2 conduce a estratos distintos o "secciones transversales" de los tres espacios donde comparamos X1 con Y, luego promediamos los hallazgos sobre cada uno de esos estratos. En R, la coplotfunción es muy útil para visualizar tales relaciones.

AdamO
fuente

Realmente aprecio sus comentarios detallados: nunca antes había tenido a nadie que respondiera mis preguntas con tanto detalle. Estoy revisando tus enlaces ahora!

sharper_image

(+1) En el punto # 1: G&H dice que estos son "principios generales para construir modelos de regresión para la predicción " [mis cursivas] por lo que su advertencia no necesita aplicarse. (Quizás esos fumadores raros con buena función pulmonar tienden a estar especialmente en forma). Cuando comienzan a discutir modelos causales, hacen el mismo punto (Cap. 9.7).

Scortchi - Restablece a Monica

(+1) Excelente respuesta, AdamO! Apreciando que ya has hecho una gran cantidad de trabajo, me pregunto si contarías algo más sobre el estado actual de adopción de la política de la revista que mencionas. Todavía me enfurezco al ver la palabra "paso a paso" en las revistas JAMA al menos. ¿Puedes citar un editorial sobre esta política?

David C. Norris

@ DavidC.Norris "Educational and Psychological Measurement" es la revista en cuestión y, por desgracia, el artículo de Babyak solo analiza la regresión automática por pasos. He visto en algunos artículos a autores que discuten su enfoque "práctico" para incluir y readaptar modelos como "paso a paso" (aunque no automatizado). Diría que han descrito correctamente el procedimiento que usaron, pero todavía tengo serias disputas con este enfoque.

AdamO

1/2 +1 Encantadora respuesta. Una queja: "Los factores de confusión deben incluirse en los modelos". Dependiendo de las relaciones causales específicas involucradas lo contrario, podría sesgo de las asociaciones de distancia de una estimación causal. Por ejemplo, en el DAG descrito por , , , , y , es un factor de confusión , tanto en el sentido del criterio de puerta trasera como en el clásico (i) asociado con e , (ii) una causa de o , y (iii) antes de e

L \to A

$L \rightarrow A$

U_{1} \to L

$U_{1} \rightarrow L$

U_{1} \to A

$U_{1} \rightarrow A$

U_{2} \to Y

$U_{2} \rightarrow Y$

U_{2} \to L

$U_{2} \rightarrow L$

L

$L$

A

$A$

Y

$Y$

A

$A$

Y

$Y$

A

$A$

Y

$Y$ sentido. Sin embargo, está sesgado (de ).

E [Y | A, L]

$E[Y|A,L]$

A - U_{1} - L - U_{2} - Y

$A-U_{1}-L-U_{2}-Y$

Alexis

Esta magnífica pregunta y la respuesta integral de @ AdamO son un excelente ejemplo de cómo CV regularmente renueva mi fe en la humanidad. Apuntaré aquí principalmente para ofrecer algunas formas de apreciar esa respuesta (y la pregunta del OP) en un contexto más amplio.

En primer lugar, me aventuro a afirmar que todos los consejos confiables con respecto a la práctica estadística son de naturaleza cautelosa , pro- descriptiva más que pre- descriptiva. El punto # 3 de Gelman & Hill, por ejemplo, aunque se lee superficialmente como un consejo para hacer algo activamente ("considerar"), se entiende mejor como advertir contra no considerar las interacciones con efectos poderosos. Entendido intuitivamente como una apelación a la intuición relacionada con la elección de los términos más importantes en una expansión de la serie Taylor (multivariante) , me parece inobservable.

En segundo lugar, mientras que el OP está ocupado obteniendo una mejor educación que la mayoría de los bioestadistas de doctorado (siguiendo las citas de AdamO), OP también podría recoger los Modelos Estadísticos e Inferencia Causal de David A. Friedman [1], donde será un desafío saludable Se descubrió que la regresión debería ser nuestra principal herramienta en la investigación clínica. Recomiendo especialmente el Capítulo 3, "Modelos estadísticos y cuero de calzado", que también está disponible en forma publicada anteriormente [2] aquí . (No permita que el nombre del diario lo apague; las lecciones clave extraídas son de las investigaciones de John Snow sobre el cólera. Consulte también esta respuesta , donde se presentan estas lecciones con cierto detalle).

Finalmente, y tal vez esto sea realmente un corolario para Freedman, debe mencionarse que el ejemplo de "conclusiones" ofrecidas por el OP en realidad pertenecería a la sección de Resultados del documento. Sería más saludable considerar lo antes posible cómo se redactarían las secciones reales de Conclusiones y Discusión del documento, para que sean accesibles para los médicos, los medios de comunicación e incluso para el creciente número de pacientes y sus defensores legos que heroicamente trabajo para leer la literatura médica. Mantener el enfoque en ese punto final dará forma útil al trabajo técnico del análisis estadístico, y lo mantendrá basado en la realidad del mundo que pretende describir y las necesidades que pretende atender.

Freedman, David, David Collier, Jasjeet Singh Sekhon y Philip B. Stark. Modelos estadísticos e inferencia causal: un diálogo con las ciencias sociales. Cambridge; Nueva York: Cambridge University Press, 2010.
Freedman, David A. "Modelos estadísticos y cuero de calzado". Sociological Methodology 21 (1991): 291–313. doi: 10.2307 / 270939.

David C. Norris
fuente