Siento que he visto este tema discutido aquí antes, pero no pude encontrar nada específico. Por otra parte, tampoco estoy muy seguro de qué buscar.
Tengo un conjunto unidimensional de datos ordenados. Supongo que todos los puntos del conjunto se extraen de la misma distribución.
¿Cómo puedo probar esta hipótesis? ¿Es razonable probar contra una alternativa general de "las observaciones en este conjunto de datos provienen de dos distribuciones diferentes"?
Idealmente, me gustaría identificar qué puntos provienen de la "otra" distribución. Dado que mis datos están ordenados, ¿podría evitar identificar un punto de corte, después de probar de alguna manera si es "válido" cortar los datos?
Editar: según la respuesta de Glen_b, estaría interesado en distribuciones estrictamente positivas y unimodales. También me interesaría el caso especial de asumir una distribución y luego probar diferentes parámetros .
fuente
Respuestas:
Imagine dos escenarios:
todos los puntos de datos se extrajeron de la misma distribución, una que era uniforme en (16,36)
Los puntos de datos se extrajeron de una mezcla 50-50 de dos poblaciones:
a. población A, que tiene la siguiente forma:
si. población B, con la siguiente forma:
... de modo que la mezcla de los dos se ve exactamente como el caso en 1.
¿Cómo podrían distinguirse?
Cualquiera sea la forma que elija para dos poblaciones, siempre habrá una distribución de población única que tenga la misma forma. Este argumento demuestra claramente que para el caso general simplemente no puede hacerlo. No hay forma posible de diferenciar.
Si introduce información sobre las poblaciones (supuestos, efectivamente), a menudo puede haber formas de proceder *, pero el caso general está muerto.
* por ejemplo, si asume que las poblaciones son unimodales y tienen medios suficientemente diferentes, puede llegar a algún lado
[Las restricciones que se agregaron a la pregunta no son suficientes para evitar una versión diferente del tipo de problema que describo anteriormente: todavía podemos escribir un nulo unimodal en la media línea positiva como una mezcla 50-50 de dos distribuciones unimodales en la media línea positiva. Por supuesto, si tiene un nulo más específico, esto se convierte en un problema mucho menor. Alternativamente, aún debería ser posible restringir aún más la clase de alternativas hasta que estuviéramos en condiciones de probar contra alguna alternativa de mezcla. O se podrían aplicar algunas restricciones adicionales a ambos, nulo y alternativo, que los haría distinguibles.]
fuente
Obviamente, necesita tener alguna teoría para hablar sobre distribución (es) e hipótesis de estado para probar. Algo que agrupa a los sujetos en uno o más grupos y algo que hace que las medidas se separen.
¿Como puedes llegar allí? Veo tres opciones:
El ejercicio le permitiría concluir que hay uno o más grupos representados en su muestra o solo uno. O ningún grupo en absoluto.
fuente