Datos correlacionados de alta dimensión y características principales / covariables descubiertas; prueba de hipótesis múltiples?

Tengo un conjunto de datos con aproximadamente 5,000 características / covariables a menudo correlacionadas y una respuesta binaria. Me dieron los datos, no los recolecté. Utilizo Lasso y el refuerzo de gradiente para construir modelos. Utilizo validación cruzada anidada iterada. Reporto los 40 coeficientes más grandes (absolutos) de Lasso y las 40 características más importantes en los árboles impulsados por gradiente (no había nada especial sobre 40; solo parecía ser una cantidad razonable de información). También informo sobre la variación de estas cantidades en los pliegues e iteraciones de CV.

Me gusta reflexionar sobre las características "importantes", sin hacer afirmaciones sobre los valores p o la causalidad ni nada, sino que considero este proceso como una idea, aunque imperfecta y aleatoria, de algún fenómeno.

Suponiendo que he hecho todo esto correctamente (p. Ej., Ejecuté la validación cruzada correctamente, escalado por lazo), ¿es razonable este enfoque? ¿Hay problemas con, por ejemplo, pruebas de hipótesis múltiples, análisis post hoc, descubrimiento falso? U otros problemas?

Objetivo

Predecir la probabilidad de un evento adverso

Ante todo, estimar la probabilidad con precisión
Más pequeño, como un control de cordura, pero también para revelar algunos predictores novedosos que podrían investigarse más a fondo, inspeccionar los coeficientes e importancias como se mencionó anteriormente.

Consumidor

Los investigadores interesados en predecir este evento y las personas que terminan teniendo que arreglar el evento si ocurre

Lo que quiero que saquen de eso

Déles la capacidad de predecir el evento, si desean repetir el proceso de modelado, como se describe, con sus propios datos.
Arrojar algo de luz sobre predictores inesperados. Por ejemplo, podría resultar que algo completamente inesperado sea el mejor predictor. Los modeladores en otros lugares, por lo tanto, podrían considerar más seriamente dicho predictor.

machine-learning multiple-comparisons regression-coefficients lasso high-dimensional usuario0
fuente

Sería útil saber cuál es la intención aquí. Hiciste estas cosas, ¿por qué? ¿Quién es el consumidor y qué quiere que saquen del análisis?

Matthew Drury el

No hay problemas con la precisión de las predicciones. La incertidumbre en sus predicciones se estima bien mediante validación cruzada. Tal vez una advertencia es que si prueba muchos ajustes de parámetros, entonces sobreestima la precisión, por lo que debe usar un conjunto de validación para estimar la precisión de su modelo final. Además, sus datos deben ser representativos de los datos sobre los que va a hacer predicciones.

Está claro para usted, y debe estar claro para el lector, que sus predictores no son las causas del efecto, solo son predictores que hacen una buena predicción y funcionan bien empíricamente. Si bien estoy completamente de acuerdo con su precaución, inferir cualquier causa de los datos de observación es problemático en cualquier caso. Cosas como el significado y tales son conceptos "válidos" en estudios bien diseñados y controlados, y fuera de eso, son meras herramientas que usted y otros deben interpretar sabiamente y con precaución. Puede haber causas comunes, efectos espurios, enmascaramiento y otras cosas que suceden en una regresión lineal normal con intervalos de confianza informados, así como en un modelo de lazo, así como en un modelo de árbol impulsado por gradiente.

Gijs
fuente

Datos correlacionados de alta dimensión y características principales / covariables descubiertas; prueba de hipótesis múltiples?

Respuestas: