¿Este valor único coincide con esa distribución?

Esto parece una pregunta muy ingenua, pero tengo dificultades para ver la respuesta.

Tengo un conjunto de 30 valores. Independientemente obtuve un valor 31. La hipótesis nula es que el valor 31 es parte de la misma distribución. La alternativa es que es diferente. Quiero algún tipo de valor p o medida de probabilidad.

Algunos pensamientos que he tenido:

Esto es similar a querer hacer una prueba t de dos muestras, excepto que para la segunda muestra solo tengo un valor único, y los 30 valores no están necesariamente distribuidos normalmente.
Si en lugar de 30 mediciones tuve 10000 mediciones, el rango de la medición individual podría proporcionar alguna información útil.

¿Cómo puedo calcular esta probabilidad o valor p?

¡Gracias! Yannick

hypothesis-testing bayesian t-test Yannick Wurm
fuente

Estás pidiendo un intervalo de predicción . Su segundo pensamiento conduce a intervalos de predicción no paramétricos (que creo que no se han mencionado en este sitio antes).

whuber

¿Qué más puedes contarnos sobre tu población? ¿Son todos los valores positivos? ¿Esperarías que sea simétrico? Unimodal?

soakley

Gracias y disculpas, debería haber proporcionado más información. Estamos observando los intervalos de predicción. Básicamente tenemos la duración de una predicción de gen focal. Y las longitudes de genes similares encontrados en bases de datos. Entonces todos los números son enteros positivos. En un caso fácil, la distribución de las longitudes es unimodal. En realidad, a menudo no lo son; en esta etapa podemos suponer que lo son. Aquí se muestran algunas parcelas de distribuciones: github.com/monicadragan/gene_prediction/tree/master/…

Yannick Wurm el

No estoy convencido de que queremos un "intervalo de predicción" No queremos predecir ... y no queremos un intervalo ...?

Yannick Wurm

No sobreinterprete los términos técnicos. Por definición, un "intervalo de predicción" se construye a partir de los valores de tal manera que, bajo la distribución conjunta supuesta de los valores, la probabilidad de que el valor 31 se encuentre dentro de es igual a un objetivo dado, como el 95%. Si, de hecho, el valor 31 no se encuentra dentro de , puede concluir que (i) no tuvo suerte (que solo tenía un 5% de posibilidades de suceder antes de recopilar los datos) o bien (ii) en realidad no es el caso de que el valor 31 tenga la distribución que supuso que tenía: y eso es lo que desea probar.

I

$I$

30

$30$ $31$

I

$I$

I

$I$

whuber

Respuestas:

En el caso unimodal, la desigualdad Vysochanskij-Petunin puede darle un intervalo de predicción aproximado. Aquí está el sitio de Wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

El uso de dará como resultado un intervalo de predicción aproximado del 95%. $\lambda = 3$

Por lo tanto, calcule la media y la desviación estándar de su población y simplemente use la muestra media más o menos como intervalo. $\bar x$ $3s$

Hay un par de problemas con este enfoque. Realmente no sabes la media o la desviación estándar; Estás usando estimaciones. Y, en general, no tendrá distribuciones unimodales, lo que significa que tendrá que usar versiones especializadas de la desigualdad de Chebyshev. Pero al menos tienes un punto de partida.

Para el caso general, Konijn (The American Statistician, febrero de 1987) establece que las estadísticas de orden pueden usarse como intervalo de predicción. Así que es un intervalo de predicción para con lo que Konijn llama tamañoEl tamaño se define como "el límite inferior más grande (con respecto al conjunto de distribuciones conjuntas admitidas) de la probabilidad de que el intervalo cubra el valor que debe asumir". Con este enfoque, un intervalo de predicción del 93.6% sería $\left[ x_{(i)},x_{(j)} \right]$ $X$ ${{j-i} \over {n+1}}.$ $X$ $\left[ x_{(1)},x_{(30)} \right].$

También da un enfoque atribuido a Saw, Yang y Mo: con detalles sobre la cobertura dada en el artículo.

[\bar{x} - λ {(1 + \frac{1}{n})}^{1 / 2} s, \bar{x} + λ {(1 + \frac{1}{n})}^{1 / 2} s],

$\left[ \bar x -\lambda \left(1 + {1 \over n}\right)^{1/2}s \ , \ \bar x + \lambda \left(1 + {1 \over n}\right)^{1/2}s \right],$

Por ejemplo, con uso de daría una cobertura superior al 90%. $n=30,$ $\lambda = 3.2$

Soakley
fuente

Esto parece ser una aplicación incorrecta de la desigualdad: se supone que la media y la varianza son conocidas , donde la varianza solo puede estimarse a partir de los datos en este contexto. La diferencia puede ser enorme, especialmente con conjuntos de datos pequeños. En mis estudios de simulación de propuestas similares con la desigualdad de Chebyshev, encontré un rendimiento sorprendentemente pobre. Intuitivamente, esto es similar a la idea de Student de que la distribución t debe usarse en lugar de la distribución Normal para construir IC; debido a que un IP está mucho más "allá afuera" en las colas, la diferencia se magnifica.

whuber

Re la edición (+1): el intervalo de predicción no paramétrico puede entenderse como una prueba de permutación bajo la hipótesis nula iid. En ese caso, solo hay un % de probabilidad de que el valor 31 sea el mayor o el menor de los 31 valores. La prueba asociada concluye que el valor 31 es inconsistente con los otros 30 cuando es más pequeño o más grande. Esta prueba tiene un tamaño (en el sentido habitual ) del %. Es el tamaño más pequeño que se puede lograr para una prueba (de dos lados) con 30 valores de datos.

2 / 31 \approx 6.45

$2/31\approx 6.45$

6.45

$6.45$

whuber

Algunos pensamientos que he tenido:

Esto es similar a querer hacer una prueba t de dos muestras, excepto que para la segunda muestra solo tengo un valor único, y los 30 valores no están necesariamente distribuidos normalmente.

Correcto. La idea es un poco como una prueba t con un solo valor. Como se desconoce la distribución y la normalidad con solo 30 puntos de datos puede ser un poco difícil de asimilar, esto requiere algún tipo de prueba no paramétrica.

Si en lugar de 30 mediciones tuve 10000 mediciones, el rango de la medición individual podría proporcionar alguna información útil.

Incluso con 30 mediciones, el rango puede ser informativo.

Como ha señalado @whuber, desea algún tipo de intervalo de predicción. Para el caso no paramétrico, lo que está preguntando, esencialmente, es lo siguiente: ¿cuál es la probabilidad de que un determinado punto de datos tenga por casualidad el rango que observamos para su 31a medición?

Esto puede abordarse mediante una simple prueba de permutación. Aquí hay un ejemplo con 15 valores y una novela (16a observación) que en realidad es más grande que cualquiera de los anteriores:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Realizamos N permutaciones, donde se baraja el orden de los elementos en la lista, luego hacemos la pregunta: ¿cuál es el rango para el valor del primer elemento en la lista (barajada)?

Realizar N = 1,000 permutaciones nos da 608 casos en los que el rango del primer elemento en la lista es igual o mejor al rango del nuevo valor (en realidad igual, ya que el nuevo valor es el mejor). Ejecutando la simulación nuevamente por 1,000 permutaciones, obtenemos 658 de estos casos, luego 663 ...

Si realizamos N = 1,000,000 de permutaciones, obtenemos 62825 casos en los que el rango del primer elemento en la lista es igual o mejor al rango del nuevo valor (simulaciones adicionales dan 62871 casos, luego 62840 ...). Si tomamos la relación entre los casos en que se cumple la condición y el número total de permutaciones, obtenemos números como 0.062825, 0.062871, 0.06284 ...

Puede ver que estos valores convergen hacia 1/16 = 0.0625 (6.25%), que como señala @whuber, es la probabilidad de que un valor dado (de 16) extraído al azar tenga el mejor rango posible entre ellos.

Para un nuevo conjunto de datos, donde el nuevo valor es el segundo mejor valor (es decir, rango 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

obtenemos (para N = 1,000,000 de permutaciones): 125235, 124883 ... casos favorables que, nuevamente, se aproximan a la probabilidad de que un valor dado (de 16) extraído al azar tenga el segundo mejor rango posible entre ellos: 2/16 = 0,125 (12,5%).

Pythiest
fuente