“Todos estos puntos de datos provienen de la misma distribución”. ¿Cómo realizar la prueba?

16

Siento que he visto este tema discutido aquí antes, pero no pude encontrar nada específico. Por otra parte, tampoco estoy muy seguro de qué buscar.

Tengo un conjunto unidimensional de datos ordenados. Supongo que todos los puntos del conjunto se extraen de la misma distribución.

¿Cómo puedo probar esta hipótesis? ¿Es razonable probar contra una alternativa general de "las observaciones en este conjunto de datos provienen de dos distribuciones diferentes"?

Idealmente, me gustaría identificar qué puntos provienen de la "otra" distribución. Dado que mis datos están ordenados, ¿podría evitar identificar un punto de corte, después de probar de alguna manera si es "válido" cortar los datos?

Editar: según la respuesta de Glen_b, estaría interesado en distribuciones estrictamente positivas y unimodales. También me interesaría el caso especial de asumir una distribución y luego probar diferentes parámetros .

Shadowtalker
fuente
¿Qué quieres decir con "misma distribución"? ¿Se considera que las observaciones de Gamma provienen de la misma distribución, o se considera como la suma de distribuciones exponenciales?
Metariat
+1 esta es una muy buena pregunta para que te hagas a ti mismo.
user541686
@Metallica, siempre que cada observación sea una suma exponencial, diría que son de la misma distribución
shadowtalker
@Mehrdad No tengo entrenamiento formal en estadística más allá de mi licenciatura y algunas clases misceláneas en mi maestría. Si miras mi historial de respuestas, está claro que sé mucho sobre regresión lineal y no mucho sobre otra cosa 🤐
shadowtalker
2
One possible way of approaching this question is to consider a finite mixture of e.g. some class of distributions and to see whether you need more than 1 mixture component to describe your data well. However, the question is whether there is a class of distributions that is sufficiently flexible to describe your "null hypothesis" by a single mixture component (e.g. if you use a finite mixture of gamma distributions these may not be flexible in terms of skewdness or tail behavior depending on what you are trying to do), while containing the potential alternative as a multi-component mixture.
Björn

Respuestas:

29

Imagine dos escenarios:

  1. todos los puntos de datos se extrajeron de la misma distribución, una que era uniforme en (16,36)

  2. Los puntos de datos se extrajeron de una mezcla 50-50 de dos poblaciones:

    a. población A, que tiene la siguiente forma:

ingrese la descripción de la imagen aquí

si. población B, con la siguiente forma:

ingrese la descripción de la imagen aquí

... de modo que la mezcla de los dos se ve exactamente como el caso en 1.

¿Cómo podrían distinguirse?

Cualquiera sea la forma que elija para dos poblaciones, siempre habrá una distribución de población única que tenga la misma forma. Este argumento demuestra claramente que para el caso general simplemente no puede hacerlo. No hay forma posible de diferenciar.

Si introduce información sobre las poblaciones (supuestos, efectivamente), a menudo puede haber formas de proceder *, pero el caso general está muerto.

* por ejemplo, si asume que las poblaciones son unimodales y tienen medios suficientemente diferentes, puede llegar a algún lado

[Las restricciones que se agregaron a la pregunta no son suficientes para evitar una versión diferente del tipo de problema que describo anteriormente: todavía podemos escribir un nulo unimodal en la media línea positiva como una mezcla 50-50 de dos distribuciones unimodales en la media línea positiva. Por supuesto, si tiene un nulo más específico, esto se convierte en un problema mucho menor. Alternativamente, aún debería ser posible restringir aún más la clase de alternativas hasta que estuviéramos en condiciones de probar contra alguna alternativa de mezcla. O se podrían aplicar algunas restricciones adicionales a ambos, nulo y alternativo, que los haría distinguibles.]

Glen_b -Reinstate a Monica
fuente
1
Gracias, gran contraejemplo. Entonces se reduce a restringir apropiadamente la hipótesis alternativa, ¿correcto?
shadowtalker
@ssdecontrol sí, en esencia; si (dados los supuestos) la alternativa es distinguible de la nula, tiene alguna esperanza de una prueba con un poder superior a su nivel de significancia.
Glen_b -Reinstalar a Mónica el
0

Obviamente, necesita tener alguna teoría para hablar sobre distribución (es) e hipótesis de estado para probar. Algo que agrupa a los sujetos en uno o más grupos y algo que hace que las medidas se separen.

¿Como puedes llegar allí? Veo tres opciones:

  • Si ya lo sabe por su tema, solo necesita traducirlo al lenguaje de la hipótesis estadística
  • Trace los cuadros y reconozca patrones para convertirse en hipótesis para probar
  • Cree una lista de distribuciones que pueda ajustar y realice un experimento matemático. La programación probabilística es la palabra clave aquí

El ejercicio le permitiría concluir que hay uno o más grupos representados en su muestra o solo uno. O ningún grupo en absoluto.

Diego
fuente