¿Cómo modelar datos continuos no negativos con inflación cero?

15

Actualmente estoy tratando de aplicar un modelo lineal ( family = gaussian) a un indicador de biodiversidad que no puede tomar valores inferiores a cero, está inflado a cero y es continuo. Los valores varían de 0 a un poco más de 0.25. Como consecuencia, hay un patrón bastante obvio en los residuos del modelo del que no he podido deshacerme: ingrese la descripción de la imagen aquí

¿Alguien tiene alguna idea sobre cómo resolver esto?

David
fuente
1
Bienvenido a CV! Tenga en cuenta que su nombre de usuario, identicon y un enlace a su página de usuario se agregan automáticamente a cada publicación que realice, por lo que no es necesario firmar sus publicaciones. De hecho, preferimos que no lo hagas.
Silverfish
3
Si está inflado a cero, no puede ser continuo, ya que las variables continuas no pueden tener ningún salto en el cdf (y claramente hay uno en 0). Puede ser continuo aparte de los 0.
Glen_b -Reinstate Monica
Relacionado: stats.stackexchange.com/questions/105320
dice Reinstate Monica el

Respuestas:

32

Hay una variedad de soluciones para el caso de distribuciones continuas (semi-) infladas a cero:

  • Regresión de Tobit : supone que los datos provienen de una única distribución Normal subyacente, pero que los valores negativos están censurados y apilados en cero (por ejemplo, paquete censReg )
  • obstáculo o modelo de "dos etapas": use un modelo binomial para predecir si los valores son 0 o> 0, luego use un modelo lineal (o Gamma, o Normal truncado, o log-Normal) para modelar los valores observados distintos de cero
  • 1<pag<2X>0 0

O, si su estructura de datos es lo suficientemente simple, puede usar modelos lineales y usar pruebas de permutación o algún otro enfoque sólido para asegurarse de que su inferencia no se vea afectada por la interesante distribución de los datos.

Hay paquetes / soluciones R disponibles para la mayoría de estos casos.

Hay otras preguntas sobre SE sobre los datos continuos (semi) ceros inflados (por ejemplo, aquí , aquí y aquí ), pero no parecen ofrecer una respuesta general clara ...

Consulte también Min & Agresti, 2002, Modelado de datos no negativos con agrupamiento en cero: una encuesta para obtener una descripción general.

Ben Bolker
fuente
@Ben Bolker ¿Usaría "un modelo lineal (o Gamma, o Normal truncado, o log-Normal) para modelar los" valores pronosticados o reales distintos de cero?
rolando2