Esta es mi primera publicación en StackExchange, pero la he estado utilizando como recurso durante bastante tiempo, haré todo lo posible para usar el formato apropiado y realizar las ediciones apropiadas. Además, esta es una pregunta de varias partes. No estaba seguro de si debía dividir la pregunta en varias publicaciones diferentes o solo en una. Como todas las preguntas son de una sección del mismo texto, pensé que sería más relevante publicarlas como una sola pregunta.
Estoy investigando el uso del hábitat de una gran especie de mamífero para una tesis de maestría. El objetivo de este proyecto es proporcionar a los administradores forestales (que probablemente no sean estadísticos) un marco práctico para evaluar la calidad del hábitat en las tierras que manejan con respecto a esta especie. Este animal es relativamente esquivo, un especialista en hábitat, y generalmente se encuentra en áreas remotas. Se han llevado a cabo relativamente pocos estudios sobre la distribución de la especie, especialmente estacionalmente. Varios animales fueron equipados con collares GPS por un período de un año. Cien ubicaciones (50 en verano y 50 en invierno) fueron seleccionadas al azar de los datos del collar GPS de cada animal. Además, se generaron aleatoriamente 50 puntos dentro del rango de hogar de cada animal para servir como ubicaciones "disponibles" o de "pseudo ausencia".
Para cada ubicación, se muestrearon varias variables de hábitat en el campo (diámetros de árboles, cobertura horizontal, escombros leñosos gruesos, etc.) y varias se tomaron muestras de forma remota a través de SIG (elevación, distancia al camino, rugosidad, etc.). Las variables son en su mayoría continuas, excepto por 1 variable categórica que tiene 7 niveles.
Mi objetivo es utilizar el modelo de regresión para construir funciones de selección de recursos (RSF) para modelar la probabilidad relativa de uso de unidades de recursos. Me gustaría construir un RSF estacional (invierno y verano) para la población de animales (diseño tipo I) así como para cada animal individual (diseño tipo III).
Estoy usando R para realizar el análisis estadístico.
El texto principal que he estado usando es ...
- "Hosmer, DW, Lemeshow, S. y Sturdivant, RX 2013. Regresión logística aplicada. Wiley, Chicester".
La mayoría de los ejemplos en Hosmer et al. uso STATA, También he estado usando las siguientes 2 textos para la referencia con R .
- "Crawley, MJ 2005. Estadísticas: una introducción utilizando RJ Wiley, Chichester, West Sussex, Inglaterra".
- "Plant, RE 2012. Análisis de datos espaciales en ecología y agricultura usando R. CRC Press, Londres, GBR".
Actualmente estoy siguiendo los pasos del Capítulo 4 de Hosmer et al. para la "Selección intencional de covariables" y tenga algunas preguntas sobre el proceso. He esbozado los primeros pasos en el texto a continuación para ayudar en mis preguntas.
- Paso 1: Un análisis univariable de cada variable independiente (utilicé una regresión logística univariable). Cualquier variable cuya prueba univariable tenga un valor p inferior a 0.25 debe incluirse en el primer modelo multivariable.
- Paso 2: Ajuste un modelo multivariable que contenga todas las covariables identificadas para su inclusión en el paso 1 y evalúe la importancia de cada covariable utilizando el valor p de su estadística de Wald. Las variables que no contribuyen a los niveles tradicionales de importancia deben eliminarse y ajustarse a un nuevo modelo. El modelo más nuevo y más pequeño debe compararse con el modelo antiguo y más grande utilizando la prueba de razón de probabilidad parcial.
- Paso 3: Compare los valores de los coeficientes estimados en el modelo más pequeño con sus valores respectivos del modelo grande. Cualquier variable cuyo coeficiente ha cambiado notablemente en magnitud debe agregarse nuevamente al modelo, ya que es importante en el sentido de proporcionar un ajuste necesario del efecto de las variables que permanecen en el modelo. Realice un ciclo a través de los pasos 2 y 3 hasta que parezca que todas las variables importantes están incluidas en el modelo y las excluidas son clínicamente y / o estadísticamente sin importancia. Hosmer y col. use el " delta-beta-hat-percent " como una medida del cambio en la magnitud de los coeficientes. Sugieren un cambio significativo como un delta-beta-hat-percent de> 20%. Hosmer y col. definir el delta-beta-hat-percent como . Dondeθ1es el coeficiente del modelo más pequeño yβ1es el coeficiente del modelo más grande.
- Paso 4: Agregue cada variable no seleccionada en el Paso 1 al modelo obtenido al final del paso 3, una a la vez, y verifique su significado ya sea por el valor p de la estadística de Wald o la prueba de razón de probabilidad parcial si es categórico variable con más de 2 niveles. Este paso es vital para identificar variables que, por sí mismas, no están significativamente relacionadas con el resultado pero hacen una contribución importante en presencia de otras variables. Nos referimos al modelo al final del Paso 4 como el modelo preliminar de efectos principales .
- Pasos 5-7: no he progresado hasta este punto, por lo que dejaré estos pasos por ahora o los guardaré para una pregunta diferente.
Mis preguntas:
- En el paso 2, ¿qué sería apropiado como un nivel tradicional de significancia, un valor p de <0.05 algo más grande como <.25?
- En el paso 2 nuevamente, quiero asegurarme de que el código R que he estado usando para la prueba de probabilidad parcial es correcto y quiero asegurarme de que estoy interpretando los resultados correctamente. Esto es lo que he estado haciendo ...
anova(smallmodel,largemodel,test='Chisq')
Si el valor p es significativo (<0.05), agrego la variable al modelo, si es insignificante, ¿procedo con la eliminación? - En el paso 3, tengo una pregunta con respecto al delta-beta-hat-percent y cuándo es apropiado volver a agregar una variable excluida al modelo. Por ejemplo, excluyo una variable a partir del modelo y cambia el para una variable diferente por> 20%. Sin embargo, la variable con el cambio> 20% en Delta ß % parece ser insignificante y se ve como si se excluye del modelo en los próximos ciclos de los pasos 2 y 3. ¿Cómo se puede hacer una determinación si ambas variables debe ser incluido o excluido del modelo? Debido a que procedo excluyendo 1 variable a la vez eliminando primero las variables menos significativas, dudo en excluir una variable fuera de orden.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])
Respuestas:
fuente
Deben evitarse a toda costa los métodos especificados para la selección de variables utilizando estadísticas como P, la regresión gradual en el texto clásico Hosmer et al.
Recientemente me topé con un artículo publicado en la revista internacional de pronósticos titulado " Ilusiones de previsibilidad " y un comentario sobre este artículo de Keith ord . Recomiendo encarecidamente estos dos artículos, ya que muestran claramente que el uso de la estadística de regresión a menudo es engañoso. Follwoing es una captura de pantalla del artículo de Keith Ord que muestra por simulación por qué la regresión por pasos (usa estadística p) para la selección de variables es mala.
Otro maravilloso artículo de Scott Armstrong que apareció en el mismo número de la revista muestra por qué uno debe ser muy cauteloso al usar el análisis de regresión en datos no experimentales con estudios de casos. Desde que leí estos artículos, evito usar el análisis de regresión para extraer inferencias causales en datos no experimentales. Como profesional, desearía haber leído artículos como este muchos años que me hubieran salvado de tomar malas decisiones y evitar errores costosos.
En su problema específico, no creo que los experimentos aleatorios sean posibles en su caso, por lo que recomendaría que use la validación cruzada para seleccionar variables. Un buen ejemplo resuelto está disponible en este libro en línea gratuito sobre cómo usaría la precisión predictiva para seleccionar variables. También incluye muchos otros métodos de selección variable, pero me limitaría a la validación cruzada.
Personalmente, me gusta la cita de Armstrong "En algún lugar me encontré con la idea de que las estadísticas debían ayudar a la comunicación. Métodos de regresión complejos y una bandada de estadísticas de diagnóstico nos han llevado en la otra dirección"
Debajo está mi propia opinión. No soy un estadista
Como biólogo, creo que agradecería este punto. La naturaleza es muy compleja, asumiendo una función logística y no se produce interacción entre variables en la naturaleza. Además, la regresión logística tiene los siguientes supuestos :
Las verdaderas probabilidades condicionales son una función logística de las variables independientes.
No se omiten variables importantes. No se incluyen variables extrañas.
Recomendaría el árbol de clasificación y regresión (CART (r)) como alternativa a la regresión logística para este tipo de análisis porque está libre de supuestos:
CART es una marca registrada de Salford Systems. Vea este video para la introducción y la historia de CART. También hay otros videos como híbridos de regresión logística de carrito en el mismo sitio web. Yo echaria un vistazo. una impedancia de código abierto en R se llama Tree , y hay muchos otros paquetes como sonajero disponibles en R. Si encuentro tiempo, publicaré el primer ejemplo en el texto de Homser usando CART. Si insiste en usar la regresión logística, entonces al menos usaría métodos como CART para seleccionar variables y luego aplicar la regresión logística.
Personalmente prefiero CART sobre regresión logística debido a las ventajas antes mencionadas. Pero aún así, probaría tanto la regresión logística como CART o CART-Logistc Regression Hybrid, y vería cuál proporciona una mejor precisión predictiva y también, lo que es más importante, una mejor interpretabilidad y elegiría la que cree que "comunicaría" los datos con mayor claridad.
Además, FYI CART fue rechazado por las principales revistas estadísticas y, finalmente, los inventores de CART publicaron una monografía. CART abrió camino a algoritmos modernos y altamente exitosos de aprendizaje automático como Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines, todos nacieron. Randomforest y GBM son más precisos que CART pero menos interpretables (como recuadro negro) que CART.
Espero que esto sea útil. Avísame si encuentras útil esta publicación.
fuente
Creo que está tratando de predecir la presencia de la especie con un enfoque de presencia / antecedentes, que está bien documentado en revistas como Methods in Ecology and Evolution, Ecography, etc. Quizás el paquete R dismo sea útil para su problema. Incluye una bonita viñeta. Usar el dismo u otro paquete similar implica cambiar su enfoque del problema, pero creo que vale la pena echarle un vistazo.
fuente