Tengo lo que ingenuamente pensé que era un problema bastante sencillo que implica la detección de valores atípicos para muchos conjuntos diferentes de datos de conteo. Específicamente, quiero determinar si uno o más valores en una serie de datos de conteo son más altos o más bajos de lo esperado en relación con el resto de los conteos en la distribución.
El factor de confusión es que necesito hacer esto para 3.500 distribuciones y es probable que algunas de ellas se ajusten a un poisson sobredispersado inflado a cero, mientras que otras pueden ajustarse mejor a un binomio negativo o ZINB, mientras que otras pueden distribuirse normalmente. Por esta razón, los puntajes Z simples o el trazado de la distribución no son apropiados para gran parte del conjunto de datos. Aquí hay un ejemplo de los datos de conteo para los cuales quiero detectar valores atípicos.
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
Inicialmente pensé que necesitaría escribir un bucle en Python o R que aplicara un conjunto de modelos a cada distribución y seleccionar el mejor modelo de ajuste de acuerdo con AIC u otro (¿tal vez el fitdistrplus en R?). Entonces podría preguntar cuáles fueron los extremos para la distribución dada (los conteos que caen en las colas, por ejemplo, ¿un conteo de "4" sería un valor atípico en la distribución de conteos1 anterior?). Sin embargo, no estoy seguro de que esta sea una estrategia válida, y se me ocurrió que puede haber una metodología simple para determinar valores atípicos en los datos de conteo de los que no estaba al tanto. He buscado mucho y no he encontrado nada que parezca apropiado para mi problema dada la cantidad de distribuciones que quiero ver.
Mi objetivo final es detectar aumentos o disminuciones significativas en un recuento para cada distribución de recuentos, utilizando la metodología más estadísticamente apropiada.
fuente