Uso e interpretación adecuados de modelos gamma con inflación cero

11

Antecedentes: soy un bioestadístico actualmente luchando con un conjunto de datos de tasas de expresión celular. El estudio expuso una gran cantidad de células, reunidas en grupos de varios donantes, a ciertos péptidos. Las células expresan ciertos biomarcadores en respuesta, o no lo hacen. Las tasas de respuesta se registran para cada grupo de donantes. Las tasas de respuesta (expresadas como porcentajes) son el resultado de interés, y la exposición a péptidos es el predictor.

Tenga en cuenta que las observaciones se agrupan dentro de los donantes.

Como solo tengo los datos de resumen, estoy tratando las tasas de respuesta de los donantes como datos continuos (al menos por ahora).

La complicación surge del hecho de que tengo muchos ceros en mis datos. Demasiados para ser ignorados. Estoy considerando un modelo gamma inflado a cero para tratar el hecho de que he sesgado los datos continuos junto con un exceso de ceros. También he considerado el modelo Tobit, pero esto parece inferior, ya que supone la censura en un límite inferior, a diferencia de los ceros genuinos (los economometristas podrían decir que la distinción es discutible).

Pregunta: En términos generales, ¿cuándo es apropiado usar un modelo gamma inflado a cero? Es decir, ¿cuáles son los supuestos? ¿Y cómo interpreta uno sus inferencias? Le agradecería los enlaces a documentos que discutan esto, si tiene alguno.

Encontré un enlace en SAS-L en el que Dale McLerran proporciona código NLMIXED para un modelo gamma inflado a cero, por lo que parece posible. No obstante, odiaría cargar a ciegas.

regression gamma-distribution mixture zero-inflation Brenden Dufault
fuente

5

Primero, no está viendo ceros genuinos en los datos de expresión. Su biólogo dice eso, como todos los biólogos, pero cuando un biólogo dice "es cero", en realidad significa "está por debajo de mi umbral de detección, por lo que no existe". Es un problema de lenguaje debido a la falta de sofisticación matemática en el campo. Hablo por experiencia personal aquí.

La explicación del Gamma inflado a cero en el enlace que proporciona es excelente. El proceso físico que conduce a sus datos es, si lo entiendo, se selecciona un donante, luego se trata con cierto péptido, y la respuesta se mide a partir de las células de ese donante. Hay un par de capas aquí. Una es la fuerza general de la respuesta del donante, que alimenta el nivel de expresión de cada célula particular que se está midiendo. Si interpreta su variable Bernoulli en el Gamma inflado a cero como "la respuesta del donante es lo suficientemente fuerte como para medir", entonces podría estar bien. Solo tenga en cuenta que en ese caso está acumulando el ruido de la expresión de la célula individual con la variación entre los donantes que responden fuertemente. Dado que el ruido en la expresión en una sola celda está aproximadamente distribuido en gamma,

Si la variación adicional de los donantes frente a las células no arruina su ajuste Gamma, y solo está tratando de obtener la expresión frente al péptido aplicado, entonces no hay razón para que esto no esté bien.

Si se necesita un análisis más detallado, recomendaría construir un modelo jerárquico personalizado para que coincida con el proceso que conduce a sus mediciones.

usuario873
fuente

3

He encontrado una solución que me parece bastante elegante. Existe un excelente artículo en la literatura titulado "Análisis de datos de medidas repetidas con agrupamiento en cero" que demuestra un modelo logarítmico inflado a cero para datos correlacionados. Los autores proporcionan una macro SAS que se basa en PROC NLMIXED y es bastante fácil de implementar. La buena noticia es que esto puede simplificarse a casos sin observaciones agrupadas por omisión de la repeateddeclaración en la macro. La mala noticia es que NLMIXED todavía no tiene las muchas estructuras de correlación que a menudo necesitamos, como el autorregresivo.

La macro se llama MIXCORR y tiene una página Wiki muy útil que puedes encontrar aquí . La macro en sí se puede descargar aquí .

Recomiendo todos estos enlaces. Espero que les sean útiles.

Brenden Dufault
fuente

Uso e interpretación adecuados de modelos gamma con inflación cero

Respuestas: