Estoy tratando de meterme un poco en las estadísticas, pero estoy atascado con algo. Mis datos son los siguientes:
Year Number_of_genes
1990 1
1991 1
1993 3
1995 4
Ahora quiero construir un modelo de regresión para poder predecir la cantidad de genes para un año determinado con base en los datos. Lo hice con regresión lineal hasta ahora, pero he leído un poco y no parece ser la mejor opción para este tipo de datos. He leído que la regresión de Poisson podría ser útil, pero no estoy seguro de qué usar. Entonces mi pregunta es:
¿Existe un modelo de regresión general para este tipo de datos? En caso negativo, ¿qué debo hacer para averiguar qué método es el más apropiado para usar (en términos de lo que tengo que averiguar sobre los datos)?
regression
count-data
poisson-regression
secuencia_dura
fuente
fuente
Respuestas:
No, no existe un modelo de regresión de datos de conteo general .
(Al igual que no existe un modelo de regresión general para datos continuos. Se asume con mayor frecuencia un modelo lineal con ruido homoscedastic normalmente distribuido, y se ajusta utilizando mínimos cuadrados ordinarios. Sin embargo, la regresión gamma o la regresión exponencial a menudo se utilizan para tratar diferentes supuestos de distribución de errores , o modelos de heteroscedasticidad condicional, como ARCH o GARCH en un contexto de serie temporal, para tratar el ruido heteroscedastic).
Los modelos comunes incluyen la regresión de Poisson , mientras escribe, o la regresión binomial negativa. Estos modelos están suficientemente extendidos para encontrar todo tipo de software, tutoriales o libros de texto. Me gusta especialmente la regresión binomial negativa de Hilbe . Esta pregunta anterior discute cómo elegir entre diferentes modelos de datos de conteo.
Si tiene "muchos" ceros en sus datos, y especialmente si sospecha que los ceros podrían ser impulsados por un proceso de generación de datos diferente a los que no son ceros (o que algunos ceros provienen de un DGP, y otros ceros y no ceros provienen de un DGP diferente), los modelos de inflación cero pueden ser útiles. La más común es la regresión de Poisson (ZIP) inflada a cero.
También puede hojear nuestras preguntas anteriores etiquetadas como "regresión" y "datos de conteo" .
EDITAR: @MichaelM plantea un buen punto. Esto hace ver como la serie de tiempo de datos de recuento. (Y los datos faltantes para 1992 y 1994 me sugieren que debería haber un cero en cada uno de estos años. Si es así, inclúyalo. El cero es un número válido y sí contiene información). A la luz de esto, yo También sugeriría que revisemos nuestras preguntas anteriores etiquetadas como "series de tiempo" y "datos de conteo" .
fuente
La distribución de elección "predeterminada", la más utilizada y descrita, para los datos de conteo es la distribución de Poisson . La mayoría de las veces se ilustra utilizando ejemplos de su primer uso práctico:
La distribución de Poisson se parametriza por tasa por intervalo de tiempo fijo ( también es su media y varianza). En caso de regresión, podemos usar la distribución de Poisson en un modelo lineal generalizado con función de enlace log-linealλλ λ
eso se llama regresión de Poisson , ya que podemos suponer que es una tasa de distribución de Poisson. Sin embargo, tenga en cuenta que para la regresión lineal logarítmica no tiene que hacer tal suposición y simplemente usar GLM con enlace de registro con datos sin conteo. Al interpretar los parámetros, debe recordar que, debido al uso de la transformación logarítmica, los cambios en la variable independiente dan como resultado cambios multiplicativos en los recuentos pronosticados.λ
El problema con el uso de la distribución de Poisson para los datos de la vida real es que supone que la media es igual a la varianza. La violación de esta suposición se llama sobredispersión . En tales casos, siempre puede usar el modelo cuasi-Poisson , el modelo no lineal de Poisson (para recuentos grandes, Poisson se puede aproximar por distribución normal), regresión binomial negativa (estrechamente relacionada con Poisson; ver Berk y MacDonald, 2008), o otros modelos, según lo descrito por Stephan Kolassa .
Para una introducción amigable a la regresión de Poisson, también puede consultar documentos de Lavery (2010) o Coxe, West y Aiken (2009).
Lavery, R. (2010). Una guía animada: una introducción a la regresión de Poisson. Papel NESUG, sa04.
Coxe, S., West, SG y Aiken, LS (2009). El análisis de los datos de conteo: una introducción suave a la regresión de Poisson y sus alternativas. Revista de evaluación de la personalidad, 91 (2), 121-136.
Berk, R. y MacDonald, JM (2008). Sobredispersión y regresión de Poisson. Revista de criminología cuantitativa, 24 (3), 269-284.
fuente
Poisson o binomio negativo son dos modelos ampliamente utilizados para los datos de conteo. Optaría por el binomio negativo ya que tiene mejores suposiciones para la varianza.
fuente