Prueba de distribución bimodal

30

Me pregunto si hay alguna prueba estadística para "probar" la importancia de una distribución bimodal. Quiero decir, ¿cuánto cumplen mis datos con la distribución bimodal o no? Si es así, ¿hay alguna prueba en el programa R?

Pauloc
fuente
3
¿No encontró una respuesta al buscar en nuestro sitio ? Si no, ¿qué falta?
whuber
77
Hay pruebas de bimodalidad o multimodalidad, pero tienden a ser unilaterales. Es decir, puede concluir cosas como "hay más de un modo", pero no puede decir "hay menos de tres modos": puede obtener límites inferiores en la cantidad de modos, pero realmente no puede obtener límites superiores porque Se puede encontrar una distribución multimodal con cualquier número de modos que sea arbitrariamente cercana a una distribución con cualquier número menor de modos. Veré si puedo desenterrar algunas pruebas o referencias explícitas.
Glen_b -Reinstale a Monica
44
La página de wikipedia sobre distribución bimodal enumera ocho pruebas de multimodalidad contra unimodalidad y proporciona referencias para siete de ellas. No estoy seguro de si hay alguno en R. Lo buscaré.
Glen_b -Reinstale a Monica

Respuestas:

17

Otro posible enfoque para este problema es pensar en lo que podría estar sucediendo detrás de escena que está generando los datos que ve. Es decir, puede pensar en términos de un modelo de mezcla , por ejemplo, un modelo de mezcla gaussiana. Por ejemplo, puede creer que sus datos se obtienen de una sola población normal o de una mezcla de dos distribuciones normales (en alguna proporción), con diferentes medias y variaciones. Por supuesto, no tiene que creer que solo hay uno o dos, ni creer que las poblaciones de las que se obtienen los datos deben ser normales.

Hay (al menos) dos paquetes R que le permiten estimar modelos de mezclas. Un paquete es flexmix y otro es mclust . Habiendo estimado dos modelos candidatos, creo que es posible realizar una prueba de razón de probabilidad. Alternativamente, puede utilizar el método de ajuste cruzado bootstrap paramétrico ( pdf ).

gung - Restablece a Monica
fuente
Hola @gung, para el método de ajuste cruzado bootstrap paramétrico, ¿cómo definirías el criterio óptimo con respecto a la distribución bimodal? Puede haber un caso en el que dos distribuciones competidoras se crucen en dos puntos. ¿Qué se debe hacer en tal caso?
akashrajkn
32

Como se menciona en los comentarios, la página de Wikipedia sobre 'Distribución bimodal' enumera ocho pruebas de multimodalidad contra unimodalidad y proporciona referencias para siete de ellas.

Hay al menos algunos en R. Por ejemplo:

  1. El paquete diptestimplementa la prueba de inmersión de Hartigan.

  2. Los stampdatos del bootstrappaquete se usaron en la Introducción a Bootstrap de Efron y Tibshirani (el libro en el que se basa el paquete) para hacer un ejemplo relacionado con bootstrapping en la cantidad de modos; Si tiene acceso al libro, puede utilizar ese enfoque.

    Efron, B. y Tibshirani, R. (1993) Una introducción a Bootstrap .
    Chapman and Hall, Nueva York, Londres.

-

Hay una pregunta en CV que habla de identificar (es decir, estimar en lugar de probar) el número de modos en los que aparece la búsqueda de @ whuber. Vale la pena leer las respuestas allí. Una de las respuestas allí (la mía, por cierto) tiene un enlace a una búsqueda en Google que muestra este artículo de David Donoho sobre la construcción de CI unilaterales para la cantidad de modos, que por supuesto se pueden usar como prueba (p. Ej. , si el intervalo unilateral no incluye el caso unimodal, puede rechazar la unimodalidad). Que yo sepa, eso no esUna de las pruebas que Wikipedia menciona. No creo que haya una implementación R de ese intervalo, pero (a pesar del hecho de que Donoho tiende a usar herramientas bastante sofisticadas en su discusión), en realidad es una idea bastante simple de implementar. Esa idea está directamente relacionada con la noción de usar la estimación de densidad del núcleo.

Glen_b -Reinstate a Monica
fuente
Ese es un trabajo valioso.
rolando2