Actualmente estoy tratando de aplicar un modelo lineal ( family = gaussian
) a un indicador de biodiversidad que no puede tomar valores inferiores a cero, está inflado a cero y es continuo. Los valores varían de 0 a un poco más de 0.25. Como consecuencia, hay un patrón bastante obvio en los residuos del modelo del que no he podido deshacerme:
¿Alguien tiene alguna idea sobre cómo resolver esto?
Respuestas:
Hay una variedad de soluciones para el caso de distribuciones continuas (semi-) infladas a cero:
O, si su estructura de datos es lo suficientemente simple, puede usar modelos lineales y usar pruebas de permutación o algún otro enfoque sólido para asegurarse de que su inferencia no se vea afectada por la interesante distribución de los datos.
Hay paquetes / soluciones R disponibles para la mayoría de estos casos.
Hay otras preguntas sobre SE sobre los datos continuos (semi) ceros inflados (por ejemplo, aquí , aquí y aquí ), pero no parecen ofrecer una respuesta general clara ...
Consulte también Min & Agresti, 2002, Modelado de datos no negativos con agrupamiento en cero: una encuesta para obtener una descripción general.
fuente