Tengo una distribución de muestras con un pequeño número de valores en cada una (menos de ) He calculado la mediana de cada muestra, que quiero comparar con un modelo y obtener la diferencia entre el modelo y la mediana de cada muestra. Para tener un resultado consistente, necesito un error en esta diferencia.
Resulta que encontrar la desviación estándar en tal caso puede ser bastante difícil, al menos para un no profesional como yo (ver, por ejemplo, aquí ).
He encontrado este sitio web que dice cómo calcular los intervalos de confianza para la mediana, incluso si no se cita una referencia oficial.
Me parece razonable, pero realmente no puedo juzgar, así que me gustaría saber:
- ¿Son correctas esas fórmulas?
- Hay una referencia para eso?
- ¿Qué pasa si quiero encontrar CI diferente de ?
Gracias por adelantado
EDITAR: También he encontrado este ejemplo de arranque para datos no gaussianos . Ahora, no sé mucho sobre bootstrapping, pero sería bueno tener una dirección sobre su validez.
Respuestas:
Resumen
Cuando puede suponer poco o nada sobre la verdadera ley de probabilidad y puede inferir poco sobre ella, como es el caso de pequeñas muestrasn observaciones: entonces un par de estadísticas de orden elegidas adecuadamente constituirán un intervalo de confianza para la mediana. Qué estadísticas de pedido elegir se pueden encontrar fácilmente con un análisis rápido del Binomial(n,1/2) distribución. En la práctica, se deben tomar algunas decisiones: estas se analizan e ilustran al final de esta publicación.
Por cierto, el mismo análisis se puede utilizar para construir intervalos de confianza para cualquier cuantilq (de los cuales la mediana, correspondiente a q=50% , es un ejemplo). El binomio(n,q) La distribución gobierna la solución en este caso.
Introducción
Recuerde lo que significa un intervalo de confianza (IC). La configuración es una muestra aleatoria independienteX=(X1,X2,…,Xn) con cada Xi regido por la misma distribución F . Se supone solo queF es un elemento de un conjunto Ω de posibles distribuciones. Cada uno de ellos tiene una medianaF1/2 . Para cualquier fijoα Entre 0 y 1 , un CI de nivel α es un par de funciones (también conocido como "estadísticas"), L y U tal que
El lado derecho es la cobertura del CI para la distribución.F .
Aparte: para que esto sea útil, también preferimos que (1) el mínimo de las coberturas sobreF∈Ω ser lo más pequeño posible y (2) la duración esperada del intervalo, EF(U(X)−L(X)) , debería ser corto para todos o "la mayoría" F∈Ω .
Análisis
Supongamos que no asumimos nada sobreΩ . En esta situación, todavía podemos explotar las estadísticas de pedidos . Estos son los valores específicos en la muestra ordenada. Para simplificar la notación, ordenemos la muestra de una vez por todas para que
El valorXi es el ith orden estadístico de la muestra. Ya que no estamos asumiendo nada sobreΩ , no sabemos nada de F al principio, por lo que no podemos inferir mucho sobre los intervalos probables entre cada Xi y su vecino Xi+1 . Sin embargo, todavía podemos razonar cuantitativamente sobre los valores individuales: ¿cuál es la probabilidad de queXi no excede la mediana de F ? Para resolver esto, dejeY ser una variable aleatoria gobernada por F , y deja
ser la posibilidad de queY no excede la mediana de F . Entonces cuandoXi≤F1/2 lo sabemos (desde X1≤⋯≤Xi≤F1/2 ) que nuestra muestra original no ordenada de n los valores deben haber contenido al menos i valores que no excedan F1/2 .
Este es un problema binomial. Formalmente, si definimos la variable aleatoriaZ A igual 1 cuando Y≤F1/2 y 0 de lo contrario, lo anterior muestra que Z tiene una distribución de Bernoulli con parámetro πF . Un "éxito" consiste en observar un valor igual o inferior a la mediana. Por lo tantoPr(Xi>F1/2) está dada por la probabilidad binomial asociada con menos de i éxitos:
Probablemente notaste queπF≥1/2 . De hecho, para muchas distribuciones los dos valores son iguales: difieren solo cuandoF asigna probabilidad positiva a la mediana F1/2 . Para analizar la diferencia, escribaπF=1/2+ε para ε≥0 . por2(j−1)≤n esto implica
En consecuencia, cuando2(i−1)≤n , podemos deshacernos de la dependencia de la suma de F , a costa de reemplazar la igualdad por una desigualdad:
Exactamente el mismo argumento (aplicado al invertir las estadísticas del pedido) muestra que cuando2(i+1)≥n ,
Los lados derechos se reducen a cero siempre quei≤0 (en el primer caso) o i≥n (en el segundo). Por lo tanto, siempre es posible encontrar índicesl≤u para cual
Solución
Este es el complemento de la condición definitoria para un intervalo de confianza y, por lo tanto, equivalente a él:
Seleccionandol≤u para hacer el lado derecho al menos 1−α , habremos encontrado un procedimiento de intervalo de confianza cuyo nivel es al menos 1−α .
En otras palabras, al elegir tales índicesl y u , configurando L(X)=Xl y U(X)=Xu , el intervalo [L(X),U(X)] será un CI para la mediana F1/2 tener cobertura al menos 1−α . Puede calcular su cobertura real en términos de probabilidades binomiales. Esta cobertura se alcanzará para cualquier distribución.F que asigna probabilidad cero a F1/2 (que incluye todas las distribuciones continuas). Será superado por cualquierF que asigna probabilidad distinta de cero a F1/2 .
Discusión
En este punto tenemos algunas opciones. Lo más común es hacer que los límites sean simétricos estableciendou razonablemente cerca de n+1−l . De hecho, estipulandou=n+1−l , los límites de confianza se pueden encontrar para cualquier n con una búsqueda rápida o aplicando la función de cuantiles binomiales.
Por ejemplo, dejemosn=10 y α=10% (para ilustrar un 1−α=90% Procedimiento de CI). Vamos a contar la parte inferior de la distribución binomial acumulativa con parámetros10 y 1/2 :
(Este es un2 , igual a 5.5% , esta cerca de α/2 , es tentador tomar l=3 y u=10+1−3=8 , para entonces la cobertura será 1−0.055−0.055=0.89 que está cerca del objetivo de 90% . Si debe lograr la cobertura deseada, entonces debe tomarl=2 y u=8 o l=3 y u=9 , ambos con cobertura 1−0.011−.055=0.935 .
R
comando y su respuesta). Porque el valor enA modo de verificación, simulemos muchos conjuntos de datos de cualquier distribución, calcule estos CI para los conjuntos de datos y calcule la proporción de CI que cubren la mediana real. Este
R
ejemplo usa una distribución Normal:La salida es
Las coberturas concuerdan estrechamente con los valores teóricos.
Como otro ejemplo, saquemos muestras de una distribución discreta, como un Poisson:
Esta vez las coberturas son mucho más altas de lo previsto. La razón es que hay un27% posibilidad de que un valor aleatorio sea igual a la mediana. Esto aumenta enormemente la posibilidad de que el IC cubra la mediana. Esto no es un problema ni una paradoja. Por definición, la cobertura tiene que ser al menos1−α no importa cual sea la distribución F es, pero es posible (como en este caso) que la cobertura para particular distribuciones sea sustancialmente mayor que1−α .
Ahí radica la compensación: cuando no asumes nada sobreF , el CI basado en estadísticas de pedido es el único que puede construir. Su cobertura para su verdadero (pero desconocido)F podría ser bastante más alto de lo que esperas. Eso significa que su CI será más amplio que si hubiera hecho algunas suposiciones más fuertes sobreΩ limitando las posibilidades de F .
fuente
Si desea utilizar métodos numéricos, puede generar una estimación de la distribución de muestreo de las medianas utilizando bootstrap. Vuelva a muestrear repetidamente su muestra y calcule muchas medianas. El estándar de estas medianas sirve como una estimación del estándar de la distribución de muestreo de las medianas. Utilicé un método similar para calcular la incertidumbre de los resultados del juego de ajedrez en mi artículo sobre gambitos de ajedrez que se puede encontrar aquí https://sonoma.academia.edu/JamalMunshi/papers
fuente