¿Hay algún truco técnico para determinar el tercer cuartil si pertenece a un intervalo abierto que contiene más de un cuarto de la población (por lo que no puedo cerrar el intervalo y usar la fórmula estándar)?
Editar
En caso de que haya entendido mal algo, proporcionaré un contexto más o menos completo. Tengo datos dispuestos en una tabla con dos columnas y, digamos, 6 filas. Con cada columna corresponde un intervalo (en la primera columna) y una cantidad de población que "pertenece" a ese intervalo. El último intervalo está abierto e incluye más del 25% de la población. Todos los intervalos (con excepción del último) tienen el mismo rango.
Datos de muestra (transpuestos para presentación):
Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2: 51, 65, 68, 82, 78, 182
La primera columna debe interpretarse como un rango de nivel de ingresos. El segundo debe interpretarse como el número de empleados cuyos ingresos pertenecen al intervalo.
La fórmula estándar en la que estoy pensando es .
Respuestas:
Debe ajustar estos datos agrupados con algún modelo de distribución, ya que esa es la única forma de extrapolar al cuartil superior.
Un modelo
Por definición, dicho modelo viene dado por una función cadlag aumenta de a . La probabilidad de que se asigne a cualquier intervalo es . Para realizar el ajuste, debe plantear una familia de posibles funciones indexadas por un parámetro (vector) , . Suponiendo que la muestra resume una colección de personas elegidas al azar e independientemente de una población descrita por algún específico (pero desconocido) , la probabilidad de la muestra (o probabilidad , ) es el producto del individuo probabilidades. En el ejemplo, sería igual0 1 ( a , b ] F ( b ) - F ( a ) θ { F θ } F θ LF 0 0 1 ( a , b ] F( b ) - F( a ) θ { Fθ} Fθ L
porque de las personas tienen probabilidades asociadas , tienen probabilidades , y así sucesivamente.F θ ( 8 ) - F θ ( 6 ) 65 F θ ( 10 ) - F θ ( 8 )51 Fθ( 8 ) - Fθ( 6 ) sesenta y cinco Fθ( 10 ) - Fθ( 8 )
Ajustar el modelo a los datos
La estimación de máxima verosimilitud de es un valor que maximiza (o, equivalentemente, el logaritmo de ).L Lθ L L
Las distribuciones de ingresos a menudo se modelan mediante distribuciones lognormales (ver, por ejemplo, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Escribiendo , la familia de distribuciones lognormales esθ=(μ,σ)
Para esta familia (y muchas otras) es sencillo optimizar numéricamente. Por ejemplo, en escribiríamos una función para calcular y luego optimizarla, porque el máximo de coincide con el máximo de y (generalmente) es más simple de calcular y numéricamente más estable para trabajar con:log ( L ( θ ) ) log ( L ) L log ( L )L log(L(θ)) log(L) L log(L)
R
La solución en este ejemplo es , que se encuentra en el valor .θ=(μ,σ)=(2.620945,0.379682)
fit$par
Comprobación de supuestos del modelo
Necesitamos al menos verificar qué tan bien se ajusta esto a la lognormalidad supuesta, por lo que escribimos una función para calcular :F
Se aplica a los datos para obtener las poblaciones de contenedores ajustadas o "predichas":
Podemos dibujar histogramas de los datos y la predicción para compararlos visualmente, como se muestra en la primera fila de estos gráficos:
Para compararlos, podemos calcular una estadística de chi-cuadrado. Esto generalmente se refiere a una distribución de chi-cuadrado para evaluar la importancia :
El "valor p" de es lo suficientemente pequeño como para que muchas personas sientan que el ajuste no es bueno. Mirando las parcelas, el problema evidentemente se enfoca en el contenedor más bajo de . ¿Quizás el término inferior debería haber sido cero? Si, de manera exploratoria, redujéramos el a menos de , obtendríamos el ajuste que se muestra en la fila inferior de gráficos. El valor p de chi-cuadrado es ahora , lo que indica (hipotéticamente, porque ahora estamos puramente en un modo exploratorio) que esta estadística no encuentra diferencias significativas entre los datos y el ajuste.6 - 8 6 3 0,400.0087 6−8 6 3 0.40
Usando el ajuste para estimar cuantiles
Si aceptamos, entonces, que (1) los ingresos se distribuyen de manera aproximadamente lognormalmente y (2) el límite inferior de los ingresos es inferior a (digamos ), entonces la estimación de probabilidad máxima es = . Usando estos parámetros podemos invertir para obtener el percentil :3 ( μ , σ ) ( 2.620334 , 0.405454 ) F 75 th6 3 (μ,σ) (2.620334,0.405454) F 75th
El valor es . (Si no hubiéramos cambiado el límite inferior del primer contenedor de a , habríamos obtenido ).6 3 17.7618.06 6 3 17.76
Estos procedimientos y este código pueden aplicarse en general. La teoría de la máxima verosimilitud puede explotarse aún más para calcular un intervalo de confianza alrededor del tercer cuartil, si eso es de interés.
fuente
Demasiado tiempo para un comentario:
La respuesta de Whubers es tan buena como cualquiera, pero él asume el sesgo correcto en su modelo logarítmico normal. Esto puede ser realista para los ingresos de una población general, pero puede no ser para los ingresos de un solo empleador en un grado en particular.
Alternativamente, podría optar por modelar la distribución como más o menos simétrica, en cuyo caso podría colocar aproximadamente en el rango 16-18, en 18-20 y en el rango 22-24 y esto le daría una estimación del tercer cuartil de alrededor de .64 50 17.568 64 50 17.5
Tendría una estimación más baja si elige continuar la frecuencia a aproximadamente por unidad doble, lo que le daría una estimación del tercer cuartil de alrededor de .17.380 17.3
Estimaciones más altas son posibles con otros supuestos. Entonces, mi conclusión sería que el tercer punto del cuartil probablemente esté por encima de , pero que realmente no tienes suficientes datos para hacer una estimación precisa sin saber (o asumir) más sobre la distribución del ingreso en el extremo superior, y que es precisamente lo que no sabes.17
fuente