Esto parece una pregunta muy ingenua, pero tengo dificultades para ver la respuesta.
Tengo un conjunto de 30 valores. Independientemente obtuve un valor 31. La hipótesis nula es que el valor 31 es parte de la misma distribución. La alternativa es que es diferente. Quiero algún tipo de valor p o medida de probabilidad.
Algunos pensamientos que he tenido:
- Esto es similar a querer hacer una prueba t de dos muestras, excepto que para la segunda muestra solo tengo un valor único, y los 30 valores no están necesariamente distribuidos normalmente.
- Si en lugar de 30 mediciones tuve 10000 mediciones, el rango de la medición individual podría proporcionar alguna información útil.
¿Cómo puedo calcular esta probabilidad o valor p?
¡Gracias! Yannick
hypothesis-testing
bayesian
t-test
Yannick Wurm
fuente
fuente
Respuestas:
En el caso unimodal, la desigualdad Vysochanskij-Petunin puede darle un intervalo de predicción aproximado. Aquí está el sitio de Wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality
El uso de dará como resultado un intervalo de predicción aproximado del 95%.λ=3
Por lo tanto, calcule la media y la desviación estándar de su población y simplemente use la muestra media más o menos como intervalo.x¯ 3s
Hay un par de problemas con este enfoque. Realmente no sabes la media o la desviación estándar; Estás usando estimaciones. Y, en general, no tendrá distribuciones unimodales, lo que significa que tendrá que usar versiones especializadas de la desigualdad de Chebyshev. Pero al menos tienes un punto de partida.
Para el caso general, Konijn (The American Statistician, febrero de 1987) establece que las estadísticas de orden pueden usarse como intervalo de predicción. Así que es un intervalo de predicción para con lo que Konijn llama tamañoEl tamaño se define como "el límite inferior más grande (con respecto al conjunto de distribuciones conjuntas admitidas) de la probabilidad de que el intervalo cubra el valor que debe asumir". Con este enfoque, un intervalo de predicción del 93.6% sería[x(i),x(j)] X j−in+1. X [x(1),x(30)].
También da un enfoque atribuido a Saw, Yang y Mo: con detalles sobre la cobertura dada en el artículo.
Por ejemplo, con uso de daría una cobertura superior al 90%.n=30, λ=3.2
fuente
Correcto. La idea es un poco como una prueba t con un solo valor. Como se desconoce la distribución y la normalidad con solo 30 puntos de datos puede ser un poco difícil de asimilar, esto requiere algún tipo de prueba no paramétrica.
Incluso con 30 mediciones, el rango puede ser informativo.
Como ha señalado @whuber, desea algún tipo de intervalo de predicción. Para el caso no paramétrico, lo que está preguntando, esencialmente, es lo siguiente: ¿cuál es la probabilidad de que un determinado punto de datos tenga por casualidad el rango que observamos para su 31a medición?
Esto puede abordarse mediante una simple prueba de permutación. Aquí hay un ejemplo con 15 valores y una novela (16a observación) que en realidad es más grande que cualquiera de los anteriores:
Realizamos N permutaciones, donde se baraja el orden de los elementos en la lista, luego hacemos la pregunta: ¿cuál es el rango para el valor del primer elemento en la lista (barajada)?
Realizar N = 1,000 permutaciones nos da 608 casos en los que el rango del primer elemento en la lista es igual o mejor al rango del nuevo valor (en realidad igual, ya que el nuevo valor es el mejor). Ejecutando la simulación nuevamente por 1,000 permutaciones, obtenemos 658 de estos casos, luego 663 ...
Si realizamos N = 1,000,000 de permutaciones, obtenemos 62825 casos en los que el rango del primer elemento en la lista es igual o mejor al rango del nuevo valor (simulaciones adicionales dan 62871 casos, luego 62840 ...). Si tomamos la relación entre los casos en que se cumple la condición y el número total de permutaciones, obtenemos números como 0.062825, 0.062871, 0.06284 ...
Puede ver que estos valores convergen hacia 1/16 = 0.0625 (6.25%), que como señala @whuber, es la probabilidad de que un valor dado (de 16) extraído al azar tenga el mejor rango posible entre ellos.
Para un nuevo conjunto de datos, donde el nuevo valor es el segundo mejor valor (es decir, rango 2):
obtenemos (para N = 1,000,000 de permutaciones): 125235, 124883 ... casos favorables que, nuevamente, se aproximan a la probabilidad de que un valor dado (de 16) extraído al azar tenga el segundo mejor rango posible entre ellos: 2/16 = 0,125 (12,5%).
fuente