Sé que esto podría ser un poco complicado, estadísticamente, pero este es mi problema.
Tengo muchos datos de rango, es decir, el tamaño mínimo, máximo y de muestra de una variable. Para algunos de estos datos también tengo una media, pero no muchos. Quiero comparar estos rangos entre sí para cuantificar la variabilidad de cada rango, y también para comparar las medias. Tengo una buena razón para suponer que la distribución es simétrica alrededor de la media, y que los datos tendrán una distribución gaussiana. Por esta razón, creo que puedo justificar el uso del punto medio de la distribución como proxy de la media, cuando está ausente.
Lo que quiero hacer es reconstruir una distribución para cada rango, y luego usarla para proporcionar una desviación estándar o un error estándar para esa distribución. La única información que tengo es el máximo y el mínimo observados en una muestra, y el punto medio como proxy de la media.
De esta forma, espero poder calcular las medias ponderadas para cada grupo y también calcular el coeficiente de variación para cada grupo, en función de los datos de rango que tengo y mis supuestos (de una distribución simétrica y normal).
Planeo usar R para hacer esto, por lo que cualquier ayuda de código también sería apreciada.
fuente
Respuestas:
La función de distribución acumulativa conjunta para el mínimo y el máximo x ( n ) para una muestra de n de una distribución gaussiana con media μ y desviación estándar σ esx(1) x(n) n μ σ
donde es el CDF gaussiano estándar. La diferenciación con respecto a x ( 1 ) y x ( n ) da la función de densidad de probabilidad conjuntaΦ(⋅) x(1) x(n)
donde es el PDF gaussiano estándar. Tomar los términos de registro y descarte que no contienen parámetros proporciona la función de probabilidad de registroϕ ( ⋅ )
Esto no se ve muy tratable pero es fácil ver que se maximiza cualquiera que sea el valor de por el ajuste μ = μ = x ( n ) + x ( 1 )σ , es decir, el punto medio: el primer término se maximiza cuando el argumento de un CDF es negativo del argumento del otro; los términos segundo y tercero representan la probabilidad conjunta de dos variables normales independientes.μ=μ^=x(n)+x(1)2
Sustituyendo μ en el diario de probabilidad y escribir r = x ( n ) - x ( 1 ) da ℓ ( σ ; x ( 1 ) , x ( n ) , μ ) = ( n - 2 ) log [ 1 - 2 Φ ( - rμ^ r=x(n)−x(1)
Esta expresión tiene que ser maximizado numéricamente (por ejemplo, con elσ^ σ^=k(n)⋅r k n
optimize
de la Rstat
paquete) para encontrar σ . (Resulta que σ = k ( n ) ⋅ r , donde k es una constante que sólo depende de n -tal vez a alguien más matemáticamente hábil de lo que podía demostrar por qué.)Las estimaciones no sirven sin una medida de precisión que lo acompañe. La información de Fisher observada puede evaluarse numéricamente (por ejemplo, con
hessian
elnumDeriv
paquete de R ) y usarse para calcular errores estándar aproximados:I(σ)=-∂2ℓ(σ; μ )
Sería interesante comparar las estimaciones de probabilidad y método de momentos para en términos de sesgo (¿es el MLE consistente?), La varianza y el error cuadrático medio. También está el problema de la estimación para aquellos grupos donde se conoce la media de la muestra además del mínimo y el máximo.σ
fuente
Restando el segundo del primero obtenemos
Tener un valor para la media y para la desviación estándar caracteriza completamente la distribución normal.
fuente
Es sencillo obtener la función de distribución del máximo de la distribución normal (ver "P.max.norm" en el código). De él (con algunos cálculos) puede obtener la función cuantil (ver "Q.max.norm").
Usando "Q.max.norm" y "Q.min.norm" puede obtener la mediana del rango que está relacionado con N. Usando la idea presentada por Alecos Papadopoulos (en respuesta anterior) puede calcular sd.
Prueba esto:
fuente