Construcción y selección de modelos utilizando Hosmer et al. 2013. Regresión logística aplicada en R

Esta es mi primera publicación en StackExchange, pero la he estado utilizando como recurso durante bastante tiempo, haré todo lo posible para usar el formato apropiado y realizar las ediciones apropiadas. Además, esta es una pregunta de varias partes. No estaba seguro de si debía dividir la pregunta en varias publicaciones diferentes o solo en una. Como todas las preguntas son de una sección del mismo texto, pensé que sería más relevante publicarlas como una sola pregunta.

Estoy investigando el uso del hábitat de una gran especie de mamífero para una tesis de maestría. El objetivo de este proyecto es proporcionar a los administradores forestales (que probablemente no sean estadísticos) un marco práctico para evaluar la calidad del hábitat en las tierras que manejan con respecto a esta especie. Este animal es relativamente esquivo, un especialista en hábitat, y generalmente se encuentra en áreas remotas. Se han llevado a cabo relativamente pocos estudios sobre la distribución de la especie, especialmente estacionalmente. Varios animales fueron equipados con collares GPS por un período de un año. Cien ubicaciones (50 en verano y 50 en invierno) fueron seleccionadas al azar de los datos del collar GPS de cada animal. Además, se generaron aleatoriamente 50 puntos dentro del rango de hogar de cada animal para servir como ubicaciones "disponibles" o de "pseudo ausencia".

Para cada ubicación, se muestrearon varias variables de hábitat en el campo (diámetros de árboles, cobertura horizontal, escombros leñosos gruesos, etc.) y varias se tomaron muestras de forma remota a través de SIG (elevación, distancia al camino, rugosidad, etc.). Las variables son en su mayoría continuas, excepto por 1 variable categórica que tiene 7 niveles.

Mi objetivo es utilizar el modelo de regresión para construir funciones de selección de recursos (RSF) para modelar la probabilidad relativa de uso de unidades de recursos. Me gustaría construir un RSF estacional (invierno y verano) para la población de animales (diseño tipo I) así como para cada animal individual (diseño tipo III).

Estoy usando R para realizar el análisis estadístico.

El texto principal que he estado usando es ...

"Hosmer, DW, Lemeshow, S. y Sturdivant, RX 2013. Regresión logística aplicada. Wiley, Chicester".

La mayoría de los ejemplos en Hosmer et al. uso STATA, También he estado usando las siguientes 2 textos para la referencia con R .

"Crawley, MJ 2005. Estadísticas: una introducción utilizando RJ Wiley, Chichester, West Sussex, Inglaterra".
"Plant, RE 2012. Análisis de datos espaciales en ecología y agricultura usando R. CRC Press, Londres, GBR".

Actualmente estoy siguiendo los pasos del Capítulo 4 de Hosmer et al. para la "Selección intencional de covariables" y tenga algunas preguntas sobre el proceso. He esbozado los primeros pasos en el texto a continuación para ayudar en mis preguntas.

Paso 1: Un análisis univariable de cada variable independiente (utilicé una regresión logística univariable). Cualquier variable cuya prueba univariable tenga un valor p inferior a 0.25 debe incluirse en el primer modelo multivariable.
Paso 2: Ajuste un modelo multivariable que contenga todas las covariables identificadas para su inclusión en el paso 1 y evalúe la importancia de cada covariable utilizando el valor p de su estadística de Wald. Las variables que no contribuyen a los niveles tradicionales de importancia deben eliminarse y ajustarse a un nuevo modelo. El modelo más nuevo y más pequeño debe compararse con el modelo antiguo y más grande utilizando la prueba de razón de probabilidad parcial.
Paso 3: Compare los valores de los coeficientes estimados en el modelo más pequeño con sus valores respectivos del modelo grande. Cualquier variable cuyo coeficiente ha cambiado notablemente en magnitud debe agregarse nuevamente al modelo, ya que es importante en el sentido de proporcionar un ajuste necesario del efecto de las variables que permanecen en el modelo. Realice un ciclo a través de los pasos 2 y 3 hasta que parezca que todas las variables importantes están incluidas en el modelo y las excluidas son clínicamente y / o estadísticamente sin importancia. Hosmer y col. use el " delta-beta-hat-percent " como una medida del cambio en la magnitud de los coeficientes. Sugieren un cambio significativo como un delta-beta-hat-percent de> 20%. Hosmer y col. definir el delta-beta-hat-percent como . Dondees el coeficiente del modelo más pequeño yes el coeficiente del modelo más grande. $\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}$ $\hat{\theta}_{1}$ $\hat{\beta}_{1}$
Paso 4: Agregue cada variable no seleccionada en el Paso 1 al modelo obtenido al final del paso 3, una a la vez, y verifique su significado ya sea por el valor p de la estadística de Wald o la prueba de razón de probabilidad parcial si es categórico variable con más de 2 niveles. Este paso es vital para identificar variables que, por sí mismas, no están significativamente relacionadas con el resultado pero hacen una contribución importante en presencia de otras variables. Nos referimos al modelo al final del Paso 4 como el modelo preliminar de efectos principales .
Pasos 5-7: no he progresado hasta este punto, por lo que dejaré estos pasos por ahora o los guardaré para una pregunta diferente.

Mis preguntas:

En el paso 2, ¿qué sería apropiado como un nivel tradicional de significancia, un valor p de <0.05 algo más grande como <.25?
En el paso 2 nuevamente, quiero asegurarme de que el código R que he estado usando para la prueba de probabilidad parcial es correcto y quiero asegurarme de que estoy interpretando los resultados correctamente. Esto es lo que he estado haciendo ... anova(smallmodel,largemodel,test='Chisq')Si el valor p es significativo (<0.05), agrego la variable al modelo, si es insignificante, ¿procedo con la eliminación?
En el paso 3, tengo una pregunta con respecto al delta-beta-hat-percent y cuándo es apropiado volver a agregar una variable excluida al modelo. Por ejemplo, excluyo una variable a partir del modelo y cambia el para una variable diferente por> 20%. Sin embargo, la variable con el cambio> 20% en $\Delta\hat{\beta}\%$ $\Delta\hat{\beta}\%$ parece ser insignificante y se ve como si se excluye del modelo en los próximos ciclos de los pasos 2 y 3. ¿Cómo se puede hacer una determinación si ambas variables debe ser incluido o excluido del modelo? Debido a que procedo excluyendo 1 variable a la vez eliminando primero las variables menos significativas, dudo en excluir una variable fuera de orden.
$\Delta\hat{\beta}\%$

100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

r logistic model-selection regression-strategies GNG
fuente

por curiosidad, ¿cuál es la especie que estás estudiando?

pronosticador

Respuestas:

$P$ $\beta$

Frank Harrell
fuente

Sí, el conocimiento del dominio + una buena dosis de incredulidad en simplicidad, por ejemplo, no asuma que las variables continuas actúan linealmente a menos que tenga datos previos que demuestren linealidad.

Frank Harrell

El OP está citando un texto principal en su tercera edición con autores que han hecho grandes contribuciones al campo. Otros puntos hechos en la pregunta se discuten en otros textos influyentes (Agresti, Gelman). Menciono esto no porque esté de acuerdo con esta estrategia, sino más bien para señalar que estas estrategias son recomendadas en textos recientes y corrientes por estadísticos respetados. En resumen: aunque hay mucha literatura que desaconseja esto, no parece ser rechazado por la comunidad estadística.

julio

Eso es bastante equivocado en mi humilde opinión. Las estrategias presionadas con tanta fuerza en algunos textos nunca han sido validadas. Los autores que no creen en la simulación corren el riesgo de abogar por el uso de métodos que no funcionan como se anuncia.

Frank Harrell

Sí, lo sé. Me refiero a su texto y documentos a menudo, y es una de las fuentes que he utilizado para llegar a mi conclusión en desacuerdo con la estrategia anterior. Simplemente estoy transmitiendo el dilema del usuario aplicado. No podemos probar todo. Confiamos en expertos como usted.

julio

@GNG: FH se refiere a la simulación como una forma de mostrar que este enfoque para la selección de modelos realmente hace lo que se supone que debe hacer (presumiblemente para mejorar la precisión de las predicciones de su modelo) en aplicaciones típicas. Sus preguntas (astutas) resaltan su inclusión de variables bastante arbitraria, ad hoc y basada en la naturaleza en un número indeterminado de pruebas de significación en niveles "tradicionales" que no pueden demostrarse por la teoría para garantizar la optimización de nada.

Scortchi - Restablece a Monica

Deben evitarse a toda costa los métodos especificados para la selección de variables utilizando estadísticas como P, la regresión gradual en el texto clásico Hosmer et al.

Recientemente me topé con un artículo publicado en la revista internacional de pronósticos titulado " Ilusiones de previsibilidad " y un comentario sobre este artículo de Keith ord . Recomiendo encarecidamente estos dos artículos, ya que muestran claramente que el uso de la estadística de regresión a menudo es engañoso. Follwoing es una captura de pantalla del artículo de Keith Ord que muestra por simulación por qué la regresión por pasos (usa estadística p) para la selección de variables es mala.

ingrese la descripción de la imagen aquí

Otro maravilloso artículo de Scott Armstrong que apareció en el mismo número de la revista muestra por qué uno debe ser muy cauteloso al usar el análisis de regresión en datos no experimentales con estudios de casos. Desde que leí estos artículos, evito usar el análisis de regresión para extraer inferencias causales en datos no experimentales. Como profesional, desearía haber leído artículos como este muchos años que me hubieran salvado de tomar malas decisiones y evitar errores costosos.

En su problema específico, no creo que los experimentos aleatorios sean posibles en su caso, por lo que recomendaría que use la validación cruzada para seleccionar variables. Un buen ejemplo resuelto está disponible en este libro en línea gratuito sobre cómo usaría la precisión predictiva para seleccionar variables. También incluye muchos otros métodos de selección variable, pero me limitaría a la validación cruzada.

Personalmente, me gusta la cita de Armstrong "En algún lugar me encontré con la idea de que las estadísticas debían ayudar a la comunicación. Métodos de regresión complejos y una bandada de estadísticas de diagnóstico nos han llevado en la otra dirección"

Debajo está mi propia opinión. No soy un estadista

Como biólogo, creo que agradecería este punto. La naturaleza es muy compleja, asumiendo una función logística y no se produce interacción entre variables en la naturaleza. Además, la regresión logística tiene los siguientes supuestos :
Las verdaderas probabilidades condicionales son una función logística de las variables independientes.
No se omiten variables importantes. No se incluyen variables extrañas.
Las variables independientes se miden sin error.
Las observaciones son independientes.
Las variables independientes no son combinaciones lineales entre sí.

Recomendaría el árbol de clasificación y regresión (CART (r)) como alternativa a la regresión logística para este tipo de análisis porque está libre de supuestos:

No paramétrico / Basado en datos / Sin suposiciones de que sus probabilidades de salida sigan la función logística.
No lineal
permite interacción variable compleja.
Proporciona árboles visuales altamente interpretables que un experto en estadística no apreciaría.
Maneja fácilmente los valores faltantes.
¡No es necesario ser un estadístico para usar CART!
selecciona automáticamente las variables mediante validación cruzada.

CART es una marca registrada de Salford Systems. Vea este video para la introducción y la historia de CART. También hay otros videos como híbridos de regresión logística de carrito en el mismo sitio web. Yo echaria un vistazo. una impedancia de código abierto en R se llama Tree , y hay muchos otros paquetes como sonajero disponibles en R. Si encuentro tiempo, publicaré el primer ejemplo en el texto de Homser usando CART. Si insiste en usar la regresión logística, entonces al menos usaría métodos como CART para seleccionar variables y luego aplicar la regresión logística.

Personalmente prefiero CART sobre regresión logística debido a las ventajas antes mencionadas. Pero aún así, probaría tanto la regresión logística como CART o CART-Logistc Regression Hybrid, y vería cuál proporciona una mejor precisión predictiva y también, lo que es más importante, una mejor interpretabilidad y elegiría la que cree que "comunicaría" los datos con mayor claridad.

Además, FYI CART fue rechazado por las principales revistas estadísticas y, finalmente, los inventores de CART publicaron una monografía. CART abrió camino a algoritmos modernos y altamente exitosos de aprendizaje automático como Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines, todos nacieron. Randomforest y GBM son más precisos que CART pero menos interpretables (como recuadro negro) que CART.

Espero que esto sea útil. Avísame si encuentras útil esta publicación.

pronosticador
fuente

Y

$Y$

Esta respuesta salta de comentarios generales, muchos de los cuales me parecen poco controvertidos, al menos para mí, a un respaldo altamente específico y bastante personal de CART como el método de elección. Tiene derecho a sus puntos de vista, ya que otros tendrán derecho a sus objeciones. Mi sugerencia es que marque el doble sabor de su respuesta con bastante más claridad.

Nick Cox

La regresión logística es un modelo lineal generalizado, pero por lo demás es defendible como, de hecho, bien motivado como un modelo naturalmente no lineal (en el sentido de que se ajusta a curvas o equivalentes, no a líneas o equivalentes, en el espacio habitual) que se adapta bien a respuestas binarias El atractivo de la biología aquí es de doble filo; ¡Históricamente, los modelos logísticos para respuestas binarias se inspiraron en modelos para el crecimiento logístico (por ejemplo, de poblaciones) en biología!

Nick Cox

The Soyer y col. El artículo, el artículo de Armstrong y los comentarios son muy buenos. He estado leyendo sobre ellos este fin de semana. Gracias por sugerirlos. Al no ser un estadístico, no puedo comentar sobre el uso de CART sobre la regresión logística. Sin embargo, su respuesta está muy bien escrita, es útil y ha recibido comentarios que son perspicaces. He estado leyendo sobre métodos de aprendizaje automático como CART, MaxEnt, e impulsé los árboles de regresión y planeo discutirlos con mi comité para obtener su conocimiento. Cuando tenga algo de tiempo libre, el video CART también debería ser interesante.

GNG

Con una sonrisa, creo que podemos revertir sus comentarios sobre modelos lineales e insistir en que, lejos de estar libre de suposiciones, o incluso de suponer que es ligero, CART asume que la realidad es como un árbol (¿qué más?). Si crees que la naturaleza es un continuo que varía suavemente, debes correr en la dirección opuesta.

Nick Cox

Creo que está tratando de predecir la presencia de la especie con un enfoque de presencia / antecedentes, que está bien documentado en revistas como Methods in Ecology and Evolution, Ecography, etc. Quizás el paquete R dismo sea útil para su problema. Incluye una bonita viñeta. Usar el dismo u otro paquete similar implica cambiar su enfoque del problema, pero creo que vale la pena echarle un vistazo.

Hugo
fuente

¿Qué le impide especificar un modelo? ¿Por qué la gran incertidumbre en lo que debería estar en el modelo? ¿Por qué la necesidad de selección de modelo con GLM?

Frank Harrell

Me temo que estás mezclando algunos conceptos. (1) de hecho, maxent son datos de presencia / antecedentes, o datos de presencia / seudo ausencia. Entonces, maxent usa los datos de solo presencia y agrega algunos puntos del paisaje, es decir, el fondo / pseudo-ausencias. Por lo tanto, se puede utilizar en su caso. (2) GLM fueron diseñados para ser utilizados con ausencias 'verdaderas'. Sin embargo, GLM se ha adaptado para datos de presencia / seudo ausencia. (3) el paquete dismo ofrece árboles de regresión potenciados, pero no solo. También puede ajustar GLM, solo siga una de las viñetas del paquete (hay 2).

Hugo

Si su pregunta es sobre qué variables debe incluir como predictores, eche un vistazo a estos documentos: Sheppard 2013. ¿Cómo afecta la selección de variables climáticas a las predicciones de distribución de especies? Un estudio de caso de tres nuevas malezas en Nueva Zelanda. Investigación de malezas; Harris y col. 2013. ¿Ser o no ser? La selección variable puede cambiar el destino proyectado de una especie amenazada en un clima futuro. Ecol. Manag. Restor

Hugo

La idea de que las técnicas de selección variable de alguna manera reducen el sobreajuste es extraña. El ahorro aparente de las variables al reducir el modelo es completamente una ilusión cuando la reducción proviene de los datos mismos.

Frank Harrell

@GNG: "Mi incertidumbre acerca de dejar todas las variables en el modelo proviene de todo lo que me han enseñado acerca de la colinealidad y el ajuste excesivo" - ¿ Su modelo contiene predictores altamente colineales? ¿ Su modelo es demasiado ajustado?

Scortchi - Restablece a Monica