Tengo procesos normalmente distribuidos de los cuales obtengo pequeñas muestras ( n típicamente 10-30) que quiero usar para estimar la varianza. Pero con frecuencia las muestras están tan juntas que no podemos medir puntos individuales cerca del centro.
Tengo esta vaga comprensión de que deberíamos ser capaces de construir un estimador eficiente utilizando muestras ordenadas: por ejemplo, si sé que la muestra contiene 20 puntos, y que 10 están agrupados muy cerca del centro demasiado apretados para medirlos individualmente, pero tengo mediciones discretas de 5 en cada cola, ¿existe un enfoque estándar / fórmula para estimar la varianza del proceso que hace un uso óptimo de tales muestras?
(Tenga en cuenta que no creo que pueda simplemente ponderar el promedio del centro. Por ejemplo, es posible que 7 muestras se agrupen firmemente mientras que otras tres están asimétricamente asimétricas a un lado, pero lo suficientemente cerca no podemos decir eso sin un muestreo único más tedioso .)
Si la respuesta es complicada, agradecería cualquier consejo sobre lo que debería estar investigando. Por ejemplo, ¿es este un problema de estadística de orden? ¿Es probable que haya una respuesta formulada o es un problema computacional?
Detalle actualizado: La aplicación es análisis de objetivos de tiro. Una sola muestra subyacente es el punto de impacto ( x, y ) de un solo disparo en el objetivo. El proceso subyacente tiene una distribución normal bivariada simétrica pero no hay correlación entre los ejes, por lo que podemos tratar las muestras { x } e { y } como extracciones independientes de la misma distribución normal. (También podríamos decir que el proceso subyacente está distribuido por Rayleigh, pero no podemos medir las variaciones de muestra de Rayleigh porque no podemos estar seguros de las coordenadas del centro "verdadero" del proceso, que para n pequeña puede ser significativamente distante del centro de muestra ( , ).)
Se nos da un objetivo y la cantidad de disparos que se le disparan. El problema es que para n >> 3 pistolas precisas típicamente dispararán un "agujero irregular" rodeado de disparos distintos. Podemos observar el ancho x e y del hoyo, pero no sabemos en qué parte del hoyo impactaron los disparos no distintos.
Aquí hay algunos ejemplos de objetivos más problemáticos:
(De acuerdo, en un mundo ideal, cambiaríamos / cambiaríamos objetivos después de cada disparo y luego agregaríamos las muestras para su análisis. Hay una serie de razones que a menudo no son prácticas, aunque se hace cuando es posible ).
Notas adicionales después de las aclaraciones de WHuber en los comentarios: Los disparos producen agujeros objetivo que son de diámetro uniforme y conocido. Cuando un disparo está fuera de cualquier "grupo irregular", conocemos el radio del proyectil y podemos medir el centro preciso . En cada "grupo irregular" podemos discernir un cierto número de "bolas" periféricas y nuevamente marcar el centro preciso de esos disparos externos en función del radio de proyectil conocido. Son los disparos restantes "censurados por el centro" que solo sabemos impactados en algún lugar en el interior de un "grupo irregular" (que normalmente es, y si es necesario, supongamos, uno por objetivo).
Para facilitar la solución, creo que será más fácil reducir esto a un conjunto de muestras unidimensionales de lo normal, con un intervalo central de ancho w > d , donde d es el diámetro del proyectil, que contiene c < n muestras "censuradas".
fuente
Respuestas:
Ese es un problema interesante. Primero, no asumiría una distribución normal. Parece que lo que realmente está buscando es una estimación de la dispersión que aplique de manera justa a muchos tiradores, pistolas, municiones o lo que sea.
Intentaría cambiar esto. No sabes exactamente dónde fueron todas las balas a menos que veas 10 agujeros separados (suponiendo 10 disparos). Pero sabes a dónde no fueron. Esto podría usarse para restringir la distribución asumiendo estadísticas bayesianas si desea comenzar con una distribución.
Una idea que podría ser mejor aquí es dejar de intentar hacerlo matemáticamente y simplemente hacer algo sensato como esto. Tome el objetivo y ejecute una rutina de procesamiento de imágenes para marcar el área del disparo que puede estar desconectado. Mida la media y el segundo momento de esto y use estos son un estimador. Si desea ir un poco más lejos e intentar Gaussianizarlo, puede ejecutar el simple experimento de Monte Carlo para obtener un factor de calibración.
fuente
Desde otro punto de vista, uno podría ver esto a la luz del campo de Estadísticas Espaciales, que ha creado una variedad de métricas, muchas de las cuales se han colocado en cajas de herramientas (ver, por ejemplo, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).
Wikipedia (enlace: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) en realidad tiene una buena página introductoria que discute conceptos tales como medidas de tendencia central espacial y dispersión espacial. Para citar Wikipedia sobre este último:
"Para la mayoría de las aplicaciones, la dispersión espacial debe cuantificarse de manera invariable a las rotaciones y reflexiones. Se pueden definir varias medidas simples de dispersión espacial para un conjunto de puntos utilizando la matriz de covarianza de las coordenadas de los puntos. , y el valor propio más grande de la matriz de covarianza se puede usar como medidas de dispersión espacial. Una medida de dispersión espacial que no se basa en la matriz de covarianza es la distancia promedio entre vecinos más cercanos. [1] "
Los conceptos relacionados incluyen medidas de homogeneidad espacial, las funciones K y L de Ripley, y quizás más relevantes para el análisis de grupos de balas, la prueba de Cuzick-Edwards para el agrupamiento de subpoblaciones dentro de poblaciones agrupadas. La última prueba se basa en la comparación (usando análisis de "vecino más cercano" para tabular estadísticas) a una población de control, que en el contexto actual podría basarse en objetivos observados reales clasificados como no agrupados, o según una simulación teórica, de digamos la distribución de Rayleigh.
fuente