Estimación de la varianza de muestras normales censuradas al centro

Tengo procesos normalmente distribuidos de los cuales obtengo pequeñas muestras ( n típicamente 10-30) que quiero usar para estimar la varianza. Pero con frecuencia las muestras están tan juntas que no podemos medir puntos individuales cerca del centro.

Tengo esta vaga comprensión de que deberíamos ser capaces de construir un estimador eficiente utilizando muestras ordenadas: por ejemplo, si sé que la muestra contiene 20 puntos, y que 10 están agrupados muy cerca del centro demasiado apretados para medirlos individualmente, pero tengo mediciones discretas de 5 en cada cola, ¿existe un enfoque estándar / fórmula para estimar la varianza del proceso que hace un uso óptimo de tales muestras?

(Tenga en cuenta que no creo que pueda simplemente ponderar el promedio del centro. Por ejemplo, es posible que 7 muestras se agrupen firmemente mientras que otras tres están asimétricamente asimétricas a un lado, pero lo suficientemente cerca no podemos decir eso sin un muestreo único más tedioso .)

Si la respuesta es complicada, agradecería cualquier consejo sobre lo que debería estar investigando. Por ejemplo, ¿es este un problema de estadística de orden? ¿Es probable que haya una respuesta formulada o es un problema computacional?

Detalle actualizado: La aplicación es análisis de objetivos de tiro. Una sola muestra subyacente es el punto de impacto ( x, y ) de un solo disparo en el objetivo. El proceso subyacente tiene una distribución normal bivariada simétrica pero no hay correlación entre los ejes, por lo que podemos tratar las muestras { x } e { y } como extracciones independientes de la misma distribución normal. (También podríamos decir que el proceso subyacente está distribuido por Rayleigh, pero no podemos medir las variaciones de muestra de Rayleigh porque no podemos estar seguros de las coordenadas del centro "verdadero" del proceso, que para n pequeña puede ser significativamente distante del centro de muestra ( , ).) $\bar{x}$ $\bar{y}$

Se nos da un objetivo y la cantidad de disparos que se le disparan. El problema es que para n >> 3 pistolas precisas típicamente dispararán un "agujero irregular" rodeado de disparos distintos. Podemos observar el ancho x e y del hoyo, pero no sabemos en qué parte del hoyo impactaron los disparos no distintos.

Aquí hay algunos ejemplos de objetivos más problemáticos:

[Objetivo de muestra con n = 10]

Objetivo de muestra con n = 100

(De acuerdo, en un mundo ideal, cambiaríamos / cambiaríamos objetivos después de cada disparo y luego agregaríamos las muestras para su análisis. Hay una serie de razones que a menudo no son prácticas, aunque se hace cuando es posible ).

Notas adicionales después de las aclaraciones de WHuber en los comentarios: Los disparos producen agujeros objetivo que son de diámetro uniforme y conocido. Cuando un disparo está fuera de cualquier "grupo irregular", conocemos el radio del proyectil y podemos medir el centro preciso . En cada "grupo irregular" podemos discernir un cierto número de "bolas" periféricas y nuevamente marcar el centro preciso de esos disparos externos en función del radio de proyectil conocido. Son los disparos restantes "censurados por el centro" que solo sabemos impactados en algún lugar en el interior de un "grupo irregular" (que normalmente es, y si es necesario, supongamos, uno por objetivo). $x_i$

Para facilitar la solución, creo que será más fácil reducir esto a un conjunto de muestras unidimensionales de lo normal, con un intervalo central de ancho w > d , donde d es el diámetro del proyectil, que contiene c < n muestras "censuradas".

normal-distribution estimation rayleigh pies mojados
fuente

(1) ¿La distribución normal es una suposición o tiene buena evidencia que la respalde? (2) ¿El problema es que no puede contar con precisión los datos cerca del centro? (Eso sería diferente que el significado habitual de "censura", que es que se puede contar con esos datos, pero sólo se sabe que sus valores se encuentran dentro de ciertos intervalos.)

whuber

@whuber: Sí, tenemos evidencia fundamental y empírica de que el proceso normalmente se distribuye. Y sí, sabemos el recuento exacto de puntos en el grupo total, y podemos observar los intervalos en los que se encuentran demasiadas muestras para determinar los valores individuales.

pies mojados

Gracias, eso es útil. Sin embargo, la naturaleza de la incertidumbre aún no está clara, y un buen modelo podría motivar una buena solución. ¿Podría tal vez proporcionar una ilustración o ejemplo o al menos describir el proceso de medición con un poco más de detalle?

whuber

@whuber: actualizado. Si me ayuda, también trabajaré en publicar enlaces a algunas muestras reales.

pies mojados

Muy interesante problema! Creo que tomará un pensamiento creativo para derivar una buena solución. ¿Sería justo decir que está considerando los centros de cada disparo, como una muestra iid de una distribución bivariada Normal ; desea estimar ; pero todo lo que puede observar, con cierta imprecisión, es (donde es el radio común conocido de cada proyectil y es la bola de radio alrededor de )?

x_{i},

$x_i,$

(μ, σ^{2})

$(\mu, \sigma^2)$

σ

$\sigma$

\cup_{i} B (x_{i}, r)

$\cup_i B(x_i, r)$

r

$r$

B (x, r)

$B(x,r)$

r

$r$

x

$x$

whuber

Respuestas:

Ese es un problema interesante. Primero, no asumiría una distribución normal. Parece que lo que realmente está buscando es una estimación de la dispersión que aplique de manera justa a muchos tiradores, pistolas, municiones o lo que sea.

Intentaría cambiar esto. No sabes exactamente dónde fueron todas las balas a menos que veas 10 agujeros separados (suponiendo 10 disparos). Pero sabes a dónde no fueron. Esto podría usarse para restringir la distribución asumiendo estadísticas bayesianas si desea comenzar con una distribución.

Una idea que podría ser mejor aquí es dejar de intentar hacerlo matemáticamente y simplemente hacer algo sensato como esto. Tome el objetivo y ejecute una rutina de procesamiento de imágenes para marcar el área del disparo que puede estar desconectado. Mida la media y el segundo momento de esto y use estos son un estimador. Si desea ir un poco más lejos e intentar Gaussianizarlo, puede ejecutar el simple experimento de Monte Carlo para obtener un factor de calibración.

Dave31415
fuente

Déjame explicar un poco más. Digamos que tienes 10 disparos y hay 6 agujeros claros donde sabes dónde fueron las balas. Primero tome estos puntos y úselos para restringir el ancho gaussiano. Siguiendo la rutina habitual, esto limita la sigma de la sigma gaussiana (para ser una distribución conocida. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf

Dave31415

Ahora, una vez que hayas hecho eso, debes considerar las 4 balas que no hicieron nuevos agujeros. Como las viñetas son independientes, esta nueva probabilidad (en el sigma gaussiano) simplemente se puede multiplicar. Básicamente, para cada una de las 4 viñetas, debes multiplicar por la probabilidad de que no hagan un nuevo hoyo.

Dave31415

Una manera simple de hacer esto con monte carlo es dibujar un conjunto de sigma de su distribución restringida y usar este sigma, calcular la posibilidad de no hacer un nuevo agujero. Por lo tanto, dibuje muchos disparos simulados de esto y cuente qué fracción no hace nuevos agujeros. Esto se puede usar para actualizar la probabilidad. Luego pase al siguiente y haga lo mismo. Ahora tienes tu probabilidad final.

Dave31415

Último comentario. Desde un punto de vista práctico, la estimación de la sigma realmente no debería verse tan afectada por el lugar exacto en el que fueron las balas invisibles, siempre y cuando suponga que atravesaron agujeros anteriores. Principalmente estará limitado por los que puede ver que definen el borde. Esto se debe a que la probabilidad de que una bala atraviese un agujero dos veces que está lejos del centro es muy baja. Entonces, incluso un crudo Monte Carlo lo acercará mucho al estimador óptimo.

Dave31415

Si no afirmamos una distribución normal (u otra), entonces parece poco probable que podamos decir algo más que poner un límite superior o inferior en lo que está sucediendo en la región censurada. En el caso unidimensional donde tenemos n disparos censurados, un límite inferior en la varianza es suponer que todos golpean el mismo punto interior más cercano a la media, y (suponiendo que la media esté centrada en el interior) un límite superior es Supongamos que los puntos censurados están igualmente distribuidos en la periferia del interior. Pero si asumimos que el proceso subyacente es normal, parece que deberíamos poder hacer algo mejor.

Footwet

Desde otro punto de vista, uno podría ver esto a la luz del campo de Estadísticas Espaciales, que ha creado una variedad de métricas, muchas de las cuales se han colocado en cajas de herramientas (ver, por ejemplo, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

Wikipedia (enlace: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) en realidad tiene una buena página introductoria que discute conceptos tales como medidas de tendencia central espacial y dispersión espacial. Para citar Wikipedia sobre este último:

"Para la mayoría de las aplicaciones, la dispersión espacial debe cuantificarse de manera invariable a las rotaciones y reflexiones. Se pueden definir varias medidas simples de dispersión espacial para un conjunto de puntos utilizando la matriz de covarianza de las coordenadas de los puntos. , y el valor propio más grande de la matriz de covarianza se puede usar como medidas de dispersión espacial. Una medida de dispersión espacial que no se basa en la matriz de covarianza es la distancia promedio entre vecinos más cercanos. [1] "

Los conceptos relacionados incluyen medidas de homogeneidad espacial, las funciones K y L de Ripley, y quizás más relevantes para el análisis de grupos de balas, la prueba de Cuzick-Edwards para el agrupamiento de subpoblaciones dentro de poblaciones agrupadas. La última prueba se basa en la comparación (usando análisis de "vecino más cercano" para tabular estadísticas) a una población de control, que en el contexto actual podría basarse en objetivos observados reales clasificados como no agrupados, o según una simulación teórica, de digamos la distribución de Rayleigh.

AJKOER
fuente