Enmarcando la distribución binomial negativa para la secuenciación del ADN

16

La distribución binomial negativa se ha convertido en un modelo popular para los datos de recuento (específicamente el número esperado de lecturas de secuenciación dentro de una región dada del genoma de un experimento dado) en bioinformática. Las explicaciones varían:

  • Algunos lo explican como algo que funciona como la distribución de Poisson pero tiene un parámetro adicional, lo que permite más libertad para modelar la distribución verdadera, con una varianza no necesariamente igual a la media
  • Algunos lo explican como una mezcla ponderada de distribuciones de Poisson (con una distribución de mezcla gamma en el parámetro de Poisson)

¿Hay alguna forma de cuadrar estos fundamentos con la definición tradicional de una distribución binomial negativa como modelo del número de éxitos de los ensayos de Bernoulli antes de ver un cierto número de fracasos? ¿O debería pensar que es una feliz coincidencia que una mezcla ponderada de distribuciones de Poisson con una distribución de mezcla gamma tiene la misma función de masa de probabilidad que el binomio negativo?

Michael Hoffman
fuente
2
También es una distribución de Poisson compuesta donde sumas un número distribuido de Poisson de variables aleatorias logarítmicas.
Douglas Zare

Respuestas:

8

IMOH, realmente creo que la distribución binomial negativa se usa por conveniencia.

Entonces, en RNA Seq hay una suposición común de que si toma un número infinito de mediciones del mismo gen en un número infinito de repeticiones, la distribución verdadera sería lognormal. Luego, esta distribución se muestrea a través de un proceso de Poisson (con un recuento) para que la lectura de distribución verdadera por gen a través de las réplicas sea una distribución de Poisson-Lognormal.

Pero en los paquetes que usamos, como EdgeR y DESeq, esta distribución se modeló como una distribución binomial negativa. Esto no se debe a que los chicos que lo escribieron no sabían sobre una distribución de Poisson Lognormal.

Es porque la distribución de Poisson Lognormal es algo terrible con lo que trabajar porque requiere integración numérica para hacer los ajustes, etc., así que cuando realmente intentas usarla, a veces el rendimiento es realmente malo.

Una distribución binomial negativa tiene una forma cerrada, por lo que es mucho más fácil trabajar con ella y la distribución gamma (la distribución subyacente) se parece mucho a una distribución lognormal, ya que a veces parece normal y a veces tiene cola.

Pero en este ejemplo (si cree en la suposición) no es posible que sea teóricamente correcto porque la distribución teóricamente correcta es el Poisson lognormal y las dos distribuciones son aproximaciones razonables entre sí, pero no son equivalentes.

Pero sigo pensando que la distribución binomial negativa "incorrecta" es a menudo la mejor opción porque empíricamente dará mejores resultados porque la integración se realiza lentamente y los ajustes pueden funcionar mal, especialmente con distribuciones con colas largas.

Michele
fuente
7

rαβ

r

  1. αα+βNB(r,αα+β)

  2. trrΓ(r,1/β).tr=λ/αtrPois(λ).r

Eso explica por qué estas distribuciones son iguales.

Douglas Zare
fuente
2

Solo puedo ofrecer intuición, pero la distribución gamma en sí misma describe los tiempos de espera (continuos) (cuánto tiempo tarda en ocurrir un evento raro). Por lo tanto, el hecho de que una mezcla distribuida en gamma de distribuciones discretas de poisson resulte en un tiempo de espera discreto (ensayos hasta N fallas) no parece demasiado sorprendente. Espero que alguien tenga una respuesta más formal.

Editar: siempre justifiqué el binomio negativo dist. para la secuencia de la siguiente manera: El paso de secuencia real es simplemente muestrear lecturas de una gran biblioteca de moléculas (poisson). Sin embargo, esa biblioteca está hecha de la muestra original por PCR. Eso significa que las moléculas originales se amplifican exponencialmente. Y la distribución gamma describe la suma de k variables aleatorias independientes distribuidas exponencialmente, es decir, cuántas moléculas en la biblioteca después de amplificar k moléculas de muestra para el mismo número de ciclos de PCR.

De ahí los modelos binomiales negativos PCR seguidos de secuenciación.

Felix Schlesinger
fuente
Eso tiene sentido, pero en el contexto de medir el número de lecturas de secuenciación en un genoma, ¿hay una explicación intuitiva de lo que representa el período de espera en la distribución binomial negativa? En este caso, no hay un período de espera, solo está midiendo los recuentos de lecturas de secuencia.
RobertF
Mira mi edición. No veo cómo pensar en términos de tiempos de espera se ajusta a la configuración de secuencia. La mezcla de gamma poisson es más fácil de interpretar. Pero al final son lo mismo.
Felix Schlesinger
2
Ok, entonces quizás la verdadera pregunta es ¿por qué coincidencia el modelado de k éxitos + r fracasos en los ensayos de Bernoulli sigue una mezcla de gamma Poisson? Tal vez un modelado binomial negativo k éxitos + r fracasos puede considerarse como un Poisson dbn sobredispersado debido a las muchas permutaciones posibles de pruebas de éxito y fracaso que dan como resultado exactamente k éxitos observados y r fallos observados, que pueden describirse como una colección de dbns separados?
RobertF
2

Trataré de dar una interpretación mecanicista simplista que encontré útil al pensar en esto.

μpμ1ppNB(μ1pp,p)

μ1ppp1p=μσ2=μ(1p)1

(1p)1

Piezas de Leopold
fuente