Tengo una muestra de 250 unidades. La distribución es asimétrica. Quiero probar una hipótesis de que la mediana de la población es diferente de 3.5, por lo que creo que una prueba de una muestra sería apropiada. Sé que la prueba de rango de Wilcoxon no es apropiada porque la distribución no es simétrica. ¿Es apropiado usar una prueba de signos? Si no es así, ¿alguien puede recomendar alguna otra prueba?
hypothesis-testing
median
LeonRupnik
fuente
fuente
Respuestas:
Sinopsis
El recuento de datos que excede tiene una distribución binomial con probabilidad desconocida . Use esto para realizar una prueba binomial de contra la alternativa .3.5 p p=1/2 p≠1/2
El resto de esta publicación explica el modelo subyacente y muestra cómo realizar los cálculos. Proporciona
R
código de trabajo para llevarlos a cabo. En mi respuesta a "¿Cuál es el significado de los valores p y los valores t en las pruebas estadísticas?" .El modelo estadístico
Suponiendo que los valores son razonablemente diversos (con pocos lazos en ), entonces, bajo su hipótesis nula, cualquier valor muestreado al azar tiene una probabilidad de 1/2 de exceder (ya que se caracteriza como el valor medio de la población) . Suponiendo que todos los valores se muestrearon de forma aleatoria e independiente, el número de ellos que exceda tendrá una distribución Binomial . Llamemos a este número "cuenta", .3.5 1/2=50% 3.5 3.5 250 3.5 (250,1/2) k
Por otro lado, si la mediana de la población difiere de , la probabilidad de que un valor muestreado al azar que exceda sea diferente de . Esta es la hipótesis alternativa.3.5 3.5 1/2
Encontrar una prueba adecuada
La mejor manera de distinguir la situación nula de sus alternativas es observar los valores de que son más probables bajo nulo y menos probables bajo las alternativas. Estos son los valores cercanos a de , igual a . Por lo tanto, una región crítica para su prueba consiste en valores relativamente lejos de : cerca de o cerca de . Pero, ¿qué tan lejos de deben estar para constituir evidencia significativa de que no es la mediana de la población?k 1/2 250 125 125 0 250 125 3.5
Depende de su estándar de importancia: esto se denomina tamaño de prueba , a menudo denominado . Bajo la hipótesis nula, debería haber cerca, pero no más de, una probabilidad que esté en la región crítica.α α k
Por lo general, cuando no tenemos ideas preconcebidas sobre qué alternativa se aplicará, una mediana mayor o menor que intentamos construir la región crítica de modo que haya la mitad de esa posibilidad, , de que sea baja y la otra mitad, , que es alta. Como conocemos la distribución de bajo la hipótesis nula, esta información es suficiente para determinar la región crítica.3.5 α/2 k α/2 k k
Técnicamente, hay dos formas comunes de llevar a cabo el cálculo: calcular las probabilidades binomiales o aproximarlas con una distribución Normal.
Cálculo con probabilidades binomiales.
Use la función de punto porcentual (cuantil). En
R
, por ejemplo, esto se llamaqbinom
y se invocaría comoLa salida para esα=0.05
Significa que la región crítica comprende todos los valores bajos de entre (y que incluye) y , junto con todos los valores altos de entre (y que incluye) y . Como verificación, podemos pedir calcular la probabilidad que se encuentra en esa región cuando el nulo es verdadero:k 0 109 k 141 250
R
k
La salida es , muy cerca de - pero no mayor que-- sí. Debido a que la región crítica debe terminar en un número entero, por lo general no es posible hacer que este tamaño de prueba real sea exactamente igual al tamaño de prueba nominal , pero en este caso los dos valores están muy cerca.0.0497 α α
Cálculo con la aproximación normal.
La media de una distribución binomial es y su varianza es , haciendo su desviación estándar igual a . Reemplazaremos la distribución Binomial con una distribución Normal. La distribución normal estándar tiene de su probabilidad menor que , según lo calculado por el comando(250,1/2) 250×1/2=125 250×1/2×(1−1/2)=250/4 250/4−−−−−√≈7.9 α/2=0.05/2 −1.95996
R
Debido a que las distribuciones normales son simétricas, también tiene de su probabilidad mayor que . Por lo tanto, la región crítica consiste en valores de que están a más de desviaciones estándar de . Calcule estos umbrales: equivalen a . El cálculo se puede llevar a cabo de una vez+ 1,95996 k 1,95996 125 125 ± 7,9 × 1,96 ≈ 109,5 , 140,50.05/2 +1.95996 k 1.95996 125 125±7.9×1.96≈109.5,140.5
Como tiene que ser un número entero, vemos que caerá en la región crítica cuando sea o menos o o más. Esta respuesta es idéntica a la obtenida usando el cálculo binomial exacto. Este suele ser el caso cuando está más cerca de que de o , el tamaño de la muestra es de moderado a grande (decenas o más) y no es muy pequeño (un pequeño porcentaje).109 141 p 1 / 2 0 1 αk 109 141 p 1/2 0 1 α
Esta prueba, debido a que no supone nada sobre la población (excepto que no tiene mucha probabilidad centrada directamente en su mediana), no es tan poderosa como otras pruebas que hacen suposiciones específicas sobre la población. Sin embargo, si la prueba rechaza el valor nulo, no hay necesidad de preocuparse por la falta de potencia. De lo contrario, debe hacer algunas compensaciones delicadas entre lo que está dispuesto a asumir y lo que puede concluir sobre la población.
fuente