Tengo el siguiente histograma de datos de conteo. Y me gustaría ajustarle una distribución discreta. No estoy seguro de cómo debo hacer esto.
¿Debería superponer primero una distribución discreta, digamos Distribución binomial negativa, en el histograma para obtener los parámetros de la distribución discreta y luego ejecutar una prueba de Kolmogorov-Smirnov para verificar los valores p?
No estoy seguro de si este método es correcto o no.
¿Existe un método general para abordar un problema como este?
Esta es una tabla de frecuencia de los datos de conteo. En mi problema, solo me estoy centrando en recuentos distintos de cero.
Counts: 1 2 3 4 5 6 7 9 10
Frequency: 3875 2454 921 192 37 11 1 1 2
ACTUALIZACIÓN: Me gustaría preguntar: utilicé la función fitdistr en R para obtener los parámetros para ajustar los datos.
fitdistr(abc[abc != 0], "Poisson")
lambda
1.68147852
(0.01497921)
Luego trazo la función de masa de probabilidad de la distribución de Poisson en la parte superior del histograma.
Sin embargo, parece que la distribución de Poisson no puede modelar los datos de conteo. ¿Hay algo que pueda hacer?
?MASS::fitdistr
, ya que está en su distribución R (vea el ejemplo final en la parte inferior; vea rnegbin para obtener más información sobre esa parametrización del binomio negativo). .... " Y después de encontrar el NM, ¿qué debo hacer a continuación? ", Bueno, en ese momento tiene estimaciones de parámetros y errores estándar. Más allá de eso, ¿qué quieres lograr? No puedo adivinar.Respuestas:
Métodos para ajustar distribuciones discretas
Hay tres métodos principales * utilizados para ajustar (estimar los parámetros de) distribuciones discretas.
1) Máxima probabilidad
Esto encuentra los valores de los parámetros que brindan la mejor oportunidad de suministrar su muestra (dados los otros supuestos, como independencia, parámetros constantes, etc.)
2) Método de momentos
Esto encuentra los valores de los parámetros que hacen que los primeros momentos de población coincidan con sus momentos de muestra. A menudo es bastante fácil de hacer, y en muchos casos produce estimadores bastante razonables. A veces también se usa para proporcionar valores iniciales a las rutinas de ML.
3) Chi-cuadrado mínimo
Esto minimiza la bondad de chi-cuadrado del estadístico de ajuste sobre la distribución discreta, aunque a veces con conjuntos de datos más grandes, las categorías finales pueden combinarse por conveniencia. A menudo funciona bastante bien, e incluso podría decirse que tiene algunas ventajas sobre el NM en situaciones particulares, pero en general debe repetirse a la convergencia, en cuyo caso la mayoría de las personas tienden a preferir el NM.
Los dos primeros métodos también se usan para distribuciones continuas; el tercero generalmente no se usa en ese caso.
Estos de ninguna manera comprenden una lista exhaustiva, y sería bastante posible estimar los parámetros minimizando la estadística KS, por ejemplo, e incluso (si ajusta la discreción), obtener una región de consonancia conjunta , si fuera tan inclinado Como está trabajando en R, la estimación de ML es bastante fácil de lograr para el binomio negativo. Si su muestra estuviera dentro
x
, es tan simple comolibrary(MASS);fitdistr (x,"negative binomial")
:Esas son las estimaciones de parámetros y sus errores estándar (asintóticos).
En el caso de la distribución de Poisson, MLE y MoM estiman el parámetro de Poisson en la media muestral.
Si desea ver ejemplos, debe publicar algunos recuentos reales. Tenga en cuenta que su histograma se ha realizado con los contenedores seleccionados para que las categorías 0 y 1 se combinen y no tengamos los recuentos sin procesar.
Por lo que puedo adivinar, sus datos son aproximadamente los siguientes:
Pero los números grandes serán inciertos (depende en gran medida de la precisión con que los recuentos bajos están representados por los recuentos de píxeles de sus alturas de barra) y podría ser un múltiplo de esos números, como el doble de esos números (los recuentos sin procesar afectan los errores estándar, por lo que importa si se trata de esos valores o el doble de grande)
La combinación de los dos primeros grupos hace que sea un poco incómodo (es posible hacerlo, pero menos sencillo si combina algunas categorías. Hay mucha información en esos dos primeros grupos, por lo que es mejor no dejar que el histograma predeterminado los agrupe) )
* Por supuesto, son posibles otros métodos de ajuste de distribuciones discretas (uno podría igualar cuantiles o minimizar otras estadísticas de bondad de ajuste, por ejemplo). Los que menciono parecen ser los más comunes.
fuente
1)
, en lugar de la numeración de marcas que admite CV (es decir,1.
--que conduce a la sangría)?En una edición, proporcionó algunos datos y agregó una nueva pregunta:
"Esta es una tabla de frecuencia de los datos de conteo. En mi problema, solo me estoy enfocando en conteos que no son cero.
¿Puede alguien darme un ejemplo de cómo realizaría la prueba de bondad de ajuste de chi-cuadrado aquí? "
Esto lleva a más comentarios:
Tener ceros pero querer ignorarlos puede tener sentido, pero en general las personas estadísticas y temáticas querrían ver una buena razón de por qué.
Si elige ignorar los ceros, se está colocando en un territorio difícil, ya que no puede iniciar rutinas, por ejemplo, para Poisson o binomio negativo si omite los ceros. Bueno, puedes, pero las respuestas estarían equivocadas. Necesita funciones o comandos de propósito especial para distribuciones como el Poisson truncado cero o el binomio negativo truncado cero. Eso es un desafío y necesita una lectura dedicada para tener claro lo que está haciendo.
Preguntar cómo hacer una prueba de chi-cuadrado me sugiere que realmente no has entendido lo que dije muy brevemente y @Glen_b dijo con mucho más detalle (y, en mi opinión, muy claramente). Partiendo eso en dos:
No puede haber una prueba de chi-cuadrado sin las frecuencias esperadas y no puede haber frecuencias esperadas sin estimaciones de parámetros. Es posible que esté más familiarizado con las rutinas de prueba de chi-cuadrado en las que se prueba la independencia de filas y columnas en una tabla de dos vías. Aunque esa es la prueba de chi-cuadrado que más se cumple en los cursos introductorios, en realidad es muy inusual entre las pruebas de chi-cuadrado en general, ya que el software habitual en efecto hace la estimación de parámetros para usted y, por lo tanto, obtiene las frecuencias esperadas. Más allá de eso, en la mayoría de los problemas más complicados, como el suyo, primero debe obtener las estimaciones de los parámetros.
Una prueba de chi-cuadrado no está mal, pero si estima los parámetros con la máxima probabilidad, es irrelevante ya que la rutina de ajuste le proporciona estimaciones y errores estándar y permite las pruebas a su paso. @Glen_b ya dio un ejemplo en su respuesta.
Una cuestión secundaria es que sería más claro ajustar sus histogramas para respetar la discreción de la variable y mostrar las probabilidades, no las densidades. Las brechas aparentes son solo artefactos de la elección predeterminada del contenedor que no respeta la discreción de la variable.
ACTUALIZACIÓN: La pregunta complementaria sobre una prueba de chi-cuadrado ahora se ha eliminado. Por el momento, estoy dejando que el # 3 anterior se mantenga, en caso de que alguien más siga el mismo camino de querer una prueba de chi-cuadrado.
fuente