¿Qué métodos puedo usar para inferir una distribución si solo conozco tres percentiles?
Por ejemplo, sé que en un determinado conjunto de datos, el quinto percentil es 8.135, el percentil 50 es 11.259 y el percentil 95 es 23.611. Quiero poder pasar de cualquier otro número a su percentil.
No son mis datos, y esas son todas las estadísticas que tengo. Está claro que la distribución no es normal. La única otra información que tengo es que esta información representa el financiamiento per cápita del gobierno para diferentes distritos escolares.
Sé lo suficiente sobre estadísticas para saber que este problema no tiene una solución definitiva, pero no lo suficiente como para saber cómo encontrar buenas conjeturas.
¿Sería apropiada una distribución lognormal? ¿Qué herramientas puedo usar para realizar la regresión (o debo hacerlo yo mismo)?
fuente
Respuestas:
El uso de un método puramente estadístico para hacer este trabajo no proporcionará absolutamente ninguna información adicional sobre la distribución del gasto escolar: el resultado simplemente reflejará una elección arbitraria de algoritmo.
Necesitas más datos .
Esto es fácil de encontrar: use datos de años anteriores, de distritos comparables, lo que sea. Por ejemplo, el gasto federal en 14866 distritos escolares en 2008 está disponible en el sitio del Censo . Muestra que en todo el país, los ingresos federales totales per cápita (inscriptos) se distribuyeron de manera aproximadamente lognormalmente, pero desglosarlos por estado muestra una variación sustancial ( por ejemplo , el gasto de registro en Alaska tiene un sesgo negativo, mientras que el gasto de registro en Colorado tiene un sesgo positivo fuerte) . Use esos datos para caracterizar la forma probable de distribución y luego ajuste sus cuantiles a esa forma.
Si incluso está cerca de la forma de distribución correcta, entonces debería poder reproducir los cuantiles con precisión ajustando uno o como máximo dos parámetros. La mejor técnica para encontrar el ajuste dependerá de la forma de distribución que utilice, pero, lo que es más importante, dependerá de para qué pretende utilizar los resultados.. ¿Necesita estimar un gasto promedio? ¿Límites superior e inferior del gasto? Sea lo que sea, desea adoptar una medida de bondad de ajuste que le brinde la mejor oportunidad de tomar buenas decisiones con sus resultados. Por ejemplo, si su interés se centra en el 10% superior de todos los gastos, querrá ajustar el percentil 95 con precisión y es posible que le importe poco ajustarse al percentil 5. Ninguna técnica de ajuste sofisticada hará estas consideraciones por usted.
Por supuesto, nadie puede garantizar legítimamente que este método orientado a la toma de decisiones basado en datos funcionará mejor (o peor) que alguna receta estadística, pero, a diferencia de un enfoque puramente estadístico, este método tiene una base basada en la realidad, con un enfoque en sus necesidades, dándole cierta credibilidad y defensa contra las críticas.
fuente
Como señaló @whuber, los métodos estadísticos no funcionan exactamente aquí. Necesita inferir la distribución de otras fuentes. Cuando conoces la distribución tienes un ejercicio de resolución de ecuaciones no lineal. Denote por la función cuantil de la distribución de probabilidad elegida con el vector de parámetros θ . Lo que tienes es el siguiente sistema no lineal de ecuaciones:f θ
Aquí elegí la función cuadrática, pero puedes elegir lo que quieras. De acuerdo con los comentarios de @whuber, puede asignar pesos, de modo que los cuantiles más importantes puedan ajustarse con mayor precisión.
Para cuatro y más parámetros, el sistema está subdeterminado, por lo que existe un número infinito de soluciones.
Aquí hay un código R de muestra que ilustra este enfoque. Para fines de demostración, genero los cuantiles de la distribución Singh-Maddala del paquete VGAM . Esta distribución tiene 3 parámetros y se usa en modelos de distribución de ingresos.
Ahora forme la función que evalúa el sistema no lineal de ecuaciones:
Verifique si los valores verdaderos satisfacen la ecuación:
Para resolver el sistema de ecuaciones no lineales, uso la función
nleqslv
del paquete nlqeslv .Como vemos, obtenemos la solución exacta. Ahora intentemos ajustar la distribución logarítmica normal a estos cuantiles. Para esto usaremos la
optim
función.Ahora traza el resultado
De esto vemos de inmediato que la función cuadrática no es tan buena.
Espero que esto ayude.
fuente
ofn <- function(x,q) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
. Propongoofn <- function(x) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2],x[3]))^2)
porqueq
no es una entrada paraofn
, yX[3]
falta. SaludosPruebe el paquete rriskDistributions y, si está seguro de la familia de distribución lognormal, use el comando
Que debería resolver tu problema. Use
fit.perc
en su lugar si no desea restringir a un pdf conocido.fuente
Para un lognormal, la razón del percentil 95 a la mediana es la misma que la razón de la mediana al quinto percentil. Eso ni siquiera es cierto aquí, así que lognormal no sería una buena opción.
Tiene suficiente información para ajustar una distribución con tres parámetros, y claramente necesita una distribución sesgada. Por simplicidad analítica, sugeriría que la distribución log-logística desplazada como su función cuantil (es decir, la inversa de su función de distribución acumulativa) se pueda escribir en una forma cerrada razonablemente simple, por lo que debería poder obtener expresiones de forma cerrada para sus tres parámetros en términos de sus tres cuantiles con un poco de álgebra (¡lo dejaré como un ejercicio!). Esta distribución se utiliza en el análisis de frecuencia de inundación.
Sin embargo, esto no le dará ninguna indicación de la incertidumbre en las estimaciones de los otros cuantiles. No sé si necesita eso, pero como estadístico creo que debería poder proporcionarlo, así que no estoy realmente satisfecho con esta respuesta. Ciertamente no usaría este método, o probablemente cualquier otro , para extrapolar (mucho) fuera del rango de los percentiles 5 al 95.
fuente
Las únicas cosas que puede inferir de los datos es que la distribución no es simétrica. Ni siquiera se puede saber si esos cuantiles provienen de una distribución ajustada o solo del ecdf.
Si provienen de una distribución ajustada, puede probar todas las distribuciones que se le ocurran y ver si alguna coincide. Si no, no hay suficiente información. Puede interpolar un polinomio de segundo grado o una spline de tercer grado para la función cuantil y usarlo, o elaborar una teoría sobre la familia de distribución y los cuantiles de coincidencia, pero cualquier inferencia que haga con estos métodos sería muy sospechosa.
fuente
El uso de cuantiles para estimar los parámetros de las distribuciones a priori se discute en la literatura sobre la medición del tiempo de respuesta humana como "estimación de probabilidad máxima cuantil" (QMPE, aunque originalmente erróneamente se denominó "estimación de máxima probabilidad de cuantil", QMLE), discutido en detalle por Heathcote y colegas . Podría ajustar varias distribuciones a priori diferentes (ex gaussiano, Lognormal desplazado, Wald y Weibull) y luego comparar las probabilidades de registro de suma de los mejores ajustes resultantes para cada distribución para encontrar el sabor de distribución que parece producir el mejor ajuste.
fuente
Puede usar su información de percentiles para simular los datos de alguna manera y usar el paquete R "logspline" para estimar la distribución de forma no paramétrica. A continuación se muestra mi función que emplea un método como este.
fuente