Tengo una pregunta sobre la distribución correcta para usar para crear un modelo con mis datos. Realicé un inventario forestal con 50 parcelas, cada parcela mide 20m × 50m. Para cada parcela, calculé el porcentaje de copa de los árboles que sombrea el suelo. Cada parcela tiene un valor, en porcentaje, para la cubierta del dosel. Los porcentajes varían de 0 a 0,95. Estoy haciendo un modelo de porcentaje de cobertura de copas de árboles ( variable Y ), con una matriz de variables X independientes basadas en imágenes satelitales y datos ambientales.
No estoy seguro de si debo usar una distribución binomial, ya que una variable aleatoria binomial es la suma de n ensayos independientes (es decir, variables aleatorias de Bernoulli). Los valores porcentuales no son la suma de los ensayos; Son los porcentajes reales. ¿Debo usar gamma, aunque no tenga un límite superior? ¿Debo convertir porcentajes a entero y usar Poisson como recuentos? ¿Debo seguir con Gaussian? No he encontrado muchos ejemplos en la literatura o en los libros de texto que intentan modelar porcentajes de esta manera. Cualquier sugerencia o idea es apreciada.
Gracias por sus respuestas. De hecho, la distribución beta es exactamente lo que necesito y se discute a fondo en este artículo:
Eskelson, BN, Madsen, L., Hagar, JC y Temesgen, H. (2011). Estimación de la cubierta vegetal de sotobosque ribereño con regresión Beta y modelos de cópula. Forest Science, 57 (3), 212-221.
Estos autores usan el paquete betareg en R de Cribari-Neto y Zeileis.
El siguiente artículo analiza una buena manera de transformar una variable de respuesta distribuida en beta cuando incluye 0 y / o 1 verdaderos en el rango de porcentajes:
- Smithson, M. y J. Verkuilen, 2006. ¿ Un mejor exprimidor de limones? Regresión de máxima verosimilitud con variables dependientes distribuidas beta , Métodos psicológicos, 11 (1): 54-71.
Respuestas:
Tiene razón en que la distribución binomial es para proporciones discretas que surgen del número de "éxitos" de un número finito de ensayos de Bernoulli, y que esto hace que la distribución sea inapropiada para sus datos. Debe usar la distribución Gamma dividida por la suma de esa Gamma más otra Gamma. Es decir, debe usar la distribución beta para modelar proporciones continuas.
Tengo un ejemplo de regresión beta en mi respuesta aquí: efecto del factor Quitar proporción en los datos continuos mediante regresión en I .
Actualización:0 0 ( 0 , 1 )
@ DimitriyV.Masterov plantea el punto positivo de que usted menciona que sus datos tienen , pero la distribución beta solo es compatible con . Esto lleva a la pregunta de qué se debe hacer con tales valores. Se pueden extraer algunas ideas de este excelente hilo de CV: ¿Qué tan pequeña se debe agregar una cantidad a x para evitar tomar el registro de 0?
fuente
Los valores porcentuales representan tasas independientes del número de muestras. Le gustaría utilizar estos porcentajes como variable dependiente y las imágenes satelitales como una variable explicativa. Sin embargo, supongo que no todas las 50 parcelas en el inventario tenían un número similar de muestras. Un modelo adecuado que relacione estos porcentajes con otras variables debería tener en cuenta esta incertidumbre en la medición, dando más pesos en las parcelas con muestras altas.
Además, la distribución de errores en el caso de sus datos es claramente binomial. La varianza del error es más pequeña en los límites, esto se captura mediante una distribución binomial.
Todo esto me parece el ejemplo arquetípico del uso de un GLM con modelo de error binomial.
"Estadísticas: una introducción usando R", el Capítulo 14 de Crawley discute exactamente este tema y cómo analizarlo con R.
fuente