Recuperando el ancho mínimo que contiene la fracción especificada de todos los valores

8

Me gustaría encontrar los límites mínimo / máximo de una ventana deslizante de tamaño mínimo que contiene una cierta fracción del número total de elementos en una matriz o colección de números.

Ejemplo: tomar números enteros para que sea más fácil de explicar, digamos que la proporción de elementos que estamos buscando es del 50% en esta matriz:

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

La función misteriosa devolvería algo como (2, 4), lo que significa que el valor mínimo es 2 y el valor máximo es 4 (supongamos que es inclusivo y tenga en cuenta que estos son VALORES, no índices). Esa pequeña ventana contiene 8 de los 16 valores y tiene solo 2 unidades de ancho, la ventana más estrecha que contiene la mitad del número de valores.

Nota: los cuartiles son [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10] por lo que NO son lo que yo Estoy buscando.

Puedo codificarlo ... puede tomar algún tiempo para que quede bien. Esperemos que alguien lo haya encontrado antes. Eso tiene un nombre? ¿Hay algún método existente que alguien conozca?

Estoy interesado en las implementaciones de Python.

ACTUALIZAR:

Gracias a Glen_b que dio los nombres 'mitad corta' e 'intervalo más corto' pude llegar a esto: encontrar intervalos de densidad de probabilidad

usuario1269942
fuente
1
" Espero que esté bien poner esto en estadísticas Y stackoverflow ". Se desaconseja, como indica la ayuda : " Tenga en cuenta, sin embargo, que no se recomienda la publicación cruzada en los sitios de SE. Elija una mejor ubicación para publicar su pregunta. Más tarde , si resulta más adecuado en otro sitio, se puede migrar ". Así que elige uno, borra el otro.
Glen_b -Reinstale a Monica el
Cuando es 50%, dicho intervalo a veces se denomina mitad corta . En general, a veces se le puede llamar un intervalo más corto.
Glen_b -Reinstale a Monica el
¡Uy! Gracias por el aviso. Eliminé la publicación en stackoverflow.
Buscaré
(mirando el enlace) Curiosamente, debatí mencionar los intervalos HPD, pero realmente se aplican a las distribuciones; Asumí que las personas no aplicarían el mismo término a las muestras, pero no pudieron encontrar cómo deberían llamarse. Resulta que estaba equivocado.
Glen_b
Por cierto, lo que crees que son cuartiles no son cuartiles, sino los datos entre cuartiles consecutivos (y por debajo / por encima del primero y el tercero, respectivamente)
Glen_b -Reinstate Monica el

Respuestas:

12

Titulares

  • Una palabra clave es shorth .

  • Para una implementación de R y enlaces a un proyecto actual con publicaciones, consulte la página de Günther Sawitzki en http://www.statlab.uni-heidelberg.de/people/gs/

  • Hay una implementación de Stata, que puede ser instalada por ssc inst shorth.

Más lentamente, y sin tratar de hacer justicia al trabajo de Sawitzki:

Las estadísticas de orden de una muestra de valores de están definidas pornX

X(1)X(2)X(norte-1)X(norte).

Deje . Luego, la mitad más corta de los datos del rango al rango se identifica para minimizar sobre . Este intervalo lo llamamos la longitud de la mitad más corta.h=norte/ /2kk+hX(k+h)-X(k)k=1,,norte-h

El shorth fue nombrado por JW Tukey e introducido en el estudio de robustez de Princeton de estimadores de ubicación por Andrews, Bickel, Hampel, Huber, Rogers y Tukey (1972, p.26) como la media de . Atrajo la atención por sus propiedades asintóticas inusuales (pp.50-52): sobre ellas, véanse también los relatos posteriores de Shorack y Wellner (1986, pp.767-771) y Kim y Pollard (1990). De lo contrario, desapareció rápidamente durante aproximadamente una década. Por cierto, Hampel (1997) muestra que los resultados disponibles para el estudio de Princeton sobre situaciones asimétricas, pero no completamente analizados en ese momento, ponen el shorth en una mejor luz de la que se apreciaba.X(k),,X(k+h)

El interés revivió en tales ideas cuando Rousseeuw (1984), basándose en una sugerencia de Hampel (1975), señaló que el punto medio de la mitad más corta es el estimador de ubicación de mediana menor de cuadrados (LMS) para . Ver Rousseeuw (1984) y Rousseeuw y Leroy (1987) para aplicaciones de LMS e ideas relacionadas a la regresión y otros problemas. Tenga en cuenta que este punto medio de LMS también se denomina shorth en algunas publicaciones recientes (por ejemplo, David y Nagaraja 2003, p.223; Maronna, Martin y Yohai 2006, p.48). Además, la mitad más corta en sí misma a veces también se llama shorth, como lo indica el título de Grübel (1988).(X(k)+X(k+h))/ /2X

La longitud de la mitad más corta es una medida robusta de escala o extensión: ver Rousseeuw y Leroy (1988), Grübel (1988), Rousseeuw y Croux (1993) y Martin y Zamar (1993) para un análisis y discusión adicionales.

La longitud de la mitad más corta en un gaussiano (normal) con media 0 y desviación estándar 1 es 1.349 a 3 dp. Por lo tanto, para estimar la desviación estándar de la longitud observada, divida por esta longitud gaussiana.

Algunos comentarios generales siguen las ventajas y desventajas de las medias ideas más cortas, desde el punto de vista de los analistas de datos prácticos tanto como los estadísticos matemáticos o teóricos. Cualquiera que sea el proyecto, siempre será prudente comparar resultados breves con medidas de resumen estándar (incluidos otros medios, especialmente medios geométricos y armónicos) y relacionar los resultados con gráficos de distribuciones. Además, si su interés está en la existencia o el alcance de la bimodalidad o la multimodalidad, será mejor mirar directamente a estimaciones adecuadamente suavizadas de la función de densidad.

  • Simplicidad La idea de la mitad más corta es simple y fácil de explicar a estudiantes e investigadores que no se consideran especialistas en estadística. Conduce directamente a dos medidas de ubicación y una de propagación que son bastante intuitivas. También es relativamente adecuado para el cálculo manual con herramientas primitivas (lápiz y papel, calculadoras, hojas de cálculo).

  • Conexiones Las similitudes y diferencias entre la longitud de la mitad más corta, el rango intercuartil y la mediana de la desviación absoluta de la mediana (MAD) (o el error probable) son inmediatos. Por lo tanto, las medias ideas más cortas están vinculadas a otras ideas estadísticas que ya deberían ser familiares para muchos analistas de datos.

  • Interpretación gráfica La mitad más corta puede relacionarse fácilmente con las pantallas estándar de distribuciones, como la distribución acumulativa y las gráficas de cuantiles, los histogramas y las gráficas de tallo y hojas.

  • Modo Al promediar donde los datos son más densos, el shorth y también el punto medio LMS introducen un sabor de modo al resumen de la ubicación. Cuando se aplica a distribuciones que son aproximadamente simétricas, el shorth estará cerca de la media y la mediana, pero más resistente que la media a valores atípicos en cualquier cola y más eficiente que la mediana para distribuciones cercanas a la forma gaussiana (normal). Cuando se aplica a distribuciones que son unimodales y asimétricas, el shorth y el LMS generalmente estarán más cerca del modo que la media o la mediana. Tenga en cuenta que la idea de estimar el modo como el punto medio del intervalo más corto que contiene un número fijo de observaciones se remonta al menos a Dalenius (1965). Ver también Robertson y Cryer (1974), Bickel (2002) y Bickel y Frühwirth (2006) sobre otros estimadores del modo. El estimador de modo de media muestra de Bickel y Frühwirth es especialmente interesante como una selección recursiva de la mitad más corta. Los usuarios de Stata pueden descargar una implementación de Statassc inst hsmode.

  • Identificación de valores atípicos Una estandarización resistente como (valor - shorth) / longitud puede ayudar a identificar valores atípicos. Para discusiones sobre ideas relacionadas, ver Carey et al. (1997) y referencias incluidas.

  • Generalizar a la fracción más corta La idea puede generalizarse a proporciones distintas de la mitad.

Al mismo tiempo, tenga en cuenta que

  • No es útil para todas las distribuciones Cuando se aplica a distribuciones que tienen aproximadamente forma de J, el shorth se aproximará a la media de la mitad inferior de los datos y el punto medio LMS será bastante más alto. Cuando se aplica a distribuciones que tienen aproximadamente forma de U, el shorth y el punto medio LMS estarán dentro de la mitad de la distribución que tenga una densidad promedio más alta. Ninguno de los comportamientos parece especialmente interesante o útil, pero igualmente hay poca necesidad de resúmenes de modo único para distribuciones en forma de J o en U; para las formas J, el modo es, o debería ser, el mínimo y para las formas U, la bimodalidad hace que la idea de un modo único sea discutible, si no es inválido.

  • Lazos La mitad más corta puede no estar definida de manera única. Incluso con datos medidos, el redondeo de los valores informados con frecuencia puede dar lugar a lazos. Qué hacer con dos o más mitades más cortas ha sido poco discutido en la literatura. Tenga en cuenta que las mitades atadas pueden superponerse o ser disjuntas. Las diferentes implementaciones pueden abordar esto de maneras ligeramente diferentes.

  • Justificación de la longitud de la ventana Por qué la mitad se considera que significa tampoco parece discutirse. Evidentemente, necesitamos una regla que produzca una longitud de ventana para pares e impares ; es preferible que la regla sea simple; y generalmente hay una ligera arbitrariedad al elegir una regla de este tipo. También es importante que cualquier regla se comporte razonablemente para pequeña : incluso si un programa no se invoca deliberadamente para tamaños de muestra muy pequeños, el procedimiento utilizado debería tener sentido para todos los tamaños posibles. Tenga en cuenta que, con esta regla, dado el shorth es solo el valor de la muestra individual, y dado1+norte/ /2nortenortenorte=1norte=2el shorth es el promedio de los dos valores de muestra. Un detalle adicional sobre esta regla es que siempre define una ligera mayoría, haciendo cumplir las decisiones democráticas sobre los datos. Sin embargo, no parece haber una razón sólida para no usar como una regla aún más simple, excepto que todos los autores en el shorth parecen haber seguido .norte/ /21+norte/ /2

  • Uso con datos ponderados La identificación de la mitad más corta parecería extenderse solo bastante confusamente a situaciones en las que las observaciones están asociadas con pesos desiguales.

  • Longitud cuando la mayoría de los valores son idénticos Cuando al menos la mitad de los valores en una muestra son iguales a alguna constante, la longitud de la mitad más corta es 0. Entonces, por ejemplo, si la mayoría de los valores son 0 y algunos son más grandes, la longitud de la más corta la mitad no es particularmente útil como medida de escala o propagación.

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers y JW Tukey. 1972. Estimaciones robustas de ubicación: encuesta y avances. Princeton, NJ: Princeton University Press.

Bickel, DR 2002. Estimadores robustos del modo y asimetría de datos continuos. Estadística computacional y análisis de datos 39: 153-163.

Bickel, DR y R. Frühwirth. 2006. En un estimador rápido y robusto del modo: comparaciones con otros estimadores con aplicaciones. Estadística computacional y análisis de datos 50: 3500-3530.

Carey, VJ, EE Walters, CG Wager y BA Rosner. 1997. Rechazo de valores atípicos resistentes y basados ​​en pruebas: efectos sobre la inferencia gaussiana de una y dos muestras. Technometrics 39: 320-330.

Christmann, A., U. Gather y G. Scholz. 1994. Algunas propiedades de la longitud de la mitad más corta. Statistica Neerlandica 48: 209-213.

Dalenius, T. 1965. El modo - Un parámetro estadístico descuidado. Journal, Royal Statistical Society A 128: 110-117.

Grübel, R. 1988. La longitud del shorth. Annals of Statistics 16: 619-628.

Hampel, FR 1975. Más allá de los parámetros de ubicación: conceptos y métodos robustos. Boletín, Instituto Internacional de Estadística 46: 375-382.

Hampel, FR 1997. Algunas notas adicionales sobre el "año de robustez de Princeton". En Brillinger, DR, LT Fernholz y S. Morgenthaler (eds) La práctica del análisis de datos: ensayos en honor de John W. Tukey. Princeton, NJ: Princeton University Press, 133-153.

Kim, J. y D. Pollard. 1990. Asintóticas de raíz cúbica. Annals of Statistics 18: 191-219.

Maronna, RA, RD Martin y VJ Yohai. 2006. Estadísticas robustas: teoría y métodos. Chichester: John Wiley.

Martin, RD y RH Zamar. 1993. Sesgo de estimación robusta de escala. Annals of Statistics 21: 991-1017.

Robertson, T. y JD Cryer. 1974. Un procedimiento iterativo para estimar el modo. Revista, Asociación Americana de Estadística 69: 1012-1016.

Rousseeuw, PJ 1984. Mínima mediana de regresión de cuadrados. Revista, Asociación Americana de Estadística 79: 871-880.

Rousseeuw, PJ y C. Croux. 1993. Alternativas a la mediana de la desviación absoluta. Revista, Asociación Americana de Estadística 88: 1273-1283.

Rousseeuw, PJ y AM Leroy. 1987. Regresión robusta y detección de valores atípicos. Nueva York: John Wiley.

Rousseeuw, PJ y AM Leroy. 1988. Un estimador de escala robusto basado en la mitad más corta. Statistica Neerlandica 42: 103-116.

Shorack, GR y JA Wellner. 1986. Procesos empíricos con aplicaciones a la estadística. Nueva York: John Wiley.

Nick Cox
fuente
Gracias; Sabía que había un término abreviado cuando mencioné la mitad corta , pero no podía pensar en qué era.
Glen_b -Reinstale a Monica el
3
+6 Publicación increíble: informativa, perspicaz y divertida de leer.
whuber
@whuber Muchas gracias; la alabanza de los loables es alabanza de hecho. Es principalmente una versión de la documentación para mi implementación de Stata descargable para los usuarios de Stata ssc inst shorthy visible de otra manera en econpapers.repec.org/software/bocbocode/s456728.html (los usuarios que no son de Stata no obtendrán nada adicional al mirar allí).
Nick Cox
¡muy agradable! disculpas por tardar tanto en aceptarlo como la respuesta ... se cayó del radar con bastante rapidez.
user1269942