La distribución binomial negativa se ha convertido en un modelo popular para los datos de recuento (específicamente el número esperado de lecturas de secuenciación dentro de una región dada del genoma de un experimento dado) en bioinformática. Las explicaciones varían:
- Algunos lo explican como algo que funciona como la distribución de Poisson pero tiene un parámetro adicional, lo que permite más libertad para modelar la distribución verdadera, con una varianza no necesariamente igual a la media
- Algunos lo explican como una mezcla ponderada de distribuciones de Poisson (con una distribución de mezcla gamma en el parámetro de Poisson)
¿Hay alguna forma de cuadrar estos fundamentos con la definición tradicional de una distribución binomial negativa como modelo del número de éxitos de los ensayos de Bernoulli antes de ver un cierto número de fracasos? ¿O debería pensar que es una feliz coincidencia que una mezcla ponderada de distribuciones de Poisson con una distribución de mezcla gamma tiene la misma función de masa de probabilidad que el binomio negativo?
poisson-distribution
negative-binomial
bioinformatics
sequence-analysis
Michael Hoffman
fuente
fuente
Respuestas:
IMOH, realmente creo que la distribución binomial negativa se usa por conveniencia.
Entonces, en RNA Seq hay una suposición común de que si toma un número infinito de mediciones del mismo gen en un número infinito de repeticiones, la distribución verdadera sería lognormal. Luego, esta distribución se muestrea a través de un proceso de Poisson (con un recuento) para que la lectura de distribución verdadera por gen a través de las réplicas sea una distribución de Poisson-Lognormal.
Pero en los paquetes que usamos, como EdgeR y DESeq, esta distribución se modeló como una distribución binomial negativa. Esto no se debe a que los chicos que lo escribieron no sabían sobre una distribución de Poisson Lognormal.
Es porque la distribución de Poisson Lognormal es algo terrible con lo que trabajar porque requiere integración numérica para hacer los ajustes, etc., así que cuando realmente intentas usarla, a veces el rendimiento es realmente malo.
Una distribución binomial negativa tiene una forma cerrada, por lo que es mucho más fácil trabajar con ella y la distribución gamma (la distribución subyacente) se parece mucho a una distribución lognormal, ya que a veces parece normal y a veces tiene cola.
Pero en este ejemplo (si cree en la suposición) no es posible que sea teóricamente correcto porque la distribución teóricamente correcta es el Poisson lognormal y las dos distribuciones son aproximaciones razonables entre sí, pero no son equivalentes.
Pero sigo pensando que la distribución binomial negativa "incorrecta" es a menudo la mejor opción porque empíricamente dará mejores resultados porque la integración se realiza lentamente y los ajustes pueden funcionar mal, especialmente con distribuciones con colas largas.
fuente
Eso explica por qué estas distribuciones son iguales.
fuente
Solo puedo ofrecer intuición, pero la distribución gamma en sí misma describe los tiempos de espera (continuos) (cuánto tiempo tarda en ocurrir un evento raro). Por lo tanto, el hecho de que una mezcla distribuida en gamma de distribuciones discretas de poisson resulte en un tiempo de espera discreto (ensayos hasta N fallas) no parece demasiado sorprendente. Espero que alguien tenga una respuesta más formal.
Editar: siempre justifiqué el binomio negativo dist. para la secuencia de la siguiente manera: El paso de secuencia real es simplemente muestrear lecturas de una gran biblioteca de moléculas (poisson). Sin embargo, esa biblioteca está hecha de la muestra original por PCR. Eso significa que las moléculas originales se amplifican exponencialmente. Y la distribución gamma describe la suma de k variables aleatorias independientes distribuidas exponencialmente, es decir, cuántas moléculas en la biblioteca después de amplificar k moléculas de muestra para el mismo número de ciclos de PCR.
De ahí los modelos binomiales negativos PCR seguidos de secuenciación.
fuente
Trataré de dar una interpretación mecanicista simplista que encontré útil al pensar en esto.
fuente