Antecedentes: soy un bioestadístico actualmente luchando con un conjunto de datos de tasas de expresión celular. El estudio expuso una gran cantidad de células, reunidas en grupos de varios donantes, a ciertos péptidos. Las células expresan ciertos biomarcadores en respuesta, o no lo hacen. Las tasas de respuesta se registran para cada grupo de donantes. Las tasas de respuesta (expresadas como porcentajes) son el resultado de interés, y la exposición a péptidos es el predictor.
Tenga en cuenta que las observaciones se agrupan dentro de los donantes.
Como solo tengo los datos de resumen, estoy tratando las tasas de respuesta de los donantes como datos continuos (al menos por ahora).
La complicación surge del hecho de que tengo muchos ceros en mis datos. Demasiados para ser ignorados. Estoy considerando un modelo gamma inflado a cero para tratar el hecho de que he sesgado los datos continuos junto con un exceso de ceros. También he considerado el modelo Tobit, pero esto parece inferior, ya que supone la censura en un límite inferior, a diferencia de los ceros genuinos (los economometristas podrían decir que la distinción es discutible).
Pregunta: En términos generales, ¿cuándo es apropiado usar un modelo gamma inflado a cero? Es decir, ¿cuáles son los supuestos? ¿Y cómo interpreta uno sus inferencias? Le agradecería los enlaces a documentos que discutan esto, si tiene alguno.
Encontré un enlace en SAS-L en el que Dale McLerran proporciona código NLMIXED para un modelo gamma inflado a cero, por lo que parece posible. No obstante, odiaría cargar a ciegas.
fuente