Tengo un montón (alrededor de 1000) de estimaciones y se supone que todas son estimaciones de elasticidad a largo plazo. Un poco más de la mitad de estos se estima utilizando el método A y el resto utilizando un método B. En algún lugar leí algo como "Creo que el método B estima algo muy diferente al método A, porque las estimaciones son mucho (50-60%) más altas ". Mi conocimiento de estadísticas robustas es casi nulo, así que solo calculé las medias y medianas de ambas muestras ... e inmediatamente vi la diferencia. El método A está muy concentrado, la diferencia entre la mediana y la media es muy pequeña, pero la muestra del método B varía enormemente.
Llegué a la conclusión de que los valores atípicos y los errores de medición sesgan la muestra del método B, por lo que descarté unos 50 valores (alrededor del 15%) que eran muy inconsistentes con la teoría ... y de repente las medias de ambas muestras (incluido su IC) fueron muy similares . Las tramas de densidad también.
(En la búsqueda de eliminar los valores atípicos, miré el rango de la muestra A y eliminé todos los puntos de muestra en B que quedaban fuera de ella). Me gustaría que me dijeras dónde puedo encontrar algunos conceptos básicos de estimación robusta de los medios que podrían permítanme juzgar esta situación más rigurosamente. Y para tener algunas referencias. No necesito una comprensión muy profunda de varias técnicas, sino leer una encuesta exhaustiva de la metodología de estimación sólida.
T probé la significación de la diferencia de medias después de eliminar los valores atípicos y el valor p es 0.0559 (t alrededor de 1.9), para las muestras completas la estadística t fue alrededor de 4.5. Pero ese no es realmente el punto, los medios pueden ser un poco diferentes, pero no deberían diferir en un 50-60% como se indicó anteriormente. Y no creo que lo hagan.
fuente
Respuestas:
¿Estás buscando la teoría o algo práctico?
Si está buscando libros, aquí hay algunos que me resultaron útiles:
FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Robust Statistics: The Approach Based in In fluence Functions , John Wiley & Sons, 1986.
PJ Huber, Robust Statistics , John Wiley & Sons, 1981.
PJ Rousseeuw, AM Leroy, Regresión robusta y detección de valores atípicos , John Wiley & Sons, 1987.
RG Staudte, SJ Sheather, Robust Estimation and Testing , John Wiley & Sons, 1990.
Si está buscando métodos prácticos, aquí hay algunos métodos sólidos para estimar la media (supongo que el "estimador de ubicación" es el término más basado en principios):
La mediana es simple, conocida y bastante poderosa. Tiene excelente robustez para valores atípicos. El "precio" de la robustez es de aproximadamente el 25%.
El promedio recortado del 5% es otro método posible. Aquí descarta los valores 5% más altos y 5% más bajos, y luego toma la media (promedio) del resultado. Esto es menos robusto para los valores atípicos: siempre que no más del 5% de sus puntos de datos estén dañados, es bueno, pero si más del 5% están dañados, de repente se vuelve horrible (no se degrada con gracia). El "precio" de la robustez es menor que la mediana, aunque no sé cuál es exactamente.
La media intercuartil es otro estimador que a veces se usa. Calcula el promedio del primer y tercer cuartiles y, por lo tanto, es fácil de calcular. Tiene muy buena robustez: puede tolerar la corrupción de hasta el 25% de los puntos de datos. Sin embargo, el "precio" de la robustez no es trivial: alrededor del 25%. Como resultado, esto parece inferior a la mediana.
Se han propuesto muchas otras medidas, pero las anteriores parecen razonables.
En resumen, sugeriría la mediana o posiblemente el estimador de Hodges-Lehmann.
PD: Oh, debería explicar lo que quiero decir con el "precio" de la robustez. Un estimador robusto está diseñado para funcionar decentemente bien, incluso si algunos de sus puntos de datos se han dañado o son atípicos. Pero, ¿qué sucede si usa un estimador robusto en un conjunto de datos que no tiene valores atípicos ni corrupción? Idealmente, nos gustaría que el estimador robusto sea tan eficiente en el uso de los datos como sea posible. Aquí podemos medir la eficiencia por el error estándar (intuitivamente, la cantidad típica de error en la estimación producida por el estimador). Se sabe que si sus observaciones provienen de una distribución gaussiana (iid), y si sabe que no necesitará robustez, entonces la media es óptima: tiene el error de estimación más pequeño posible. El "precio" de robustez, arriba, es cuánto aumenta el error estándar si aplicamos un estimador robusto particular a esta situación. Un precio de solidez del 25% para la mediana significa que el tamaño del error de estimación típico con la mediana será aproximadamente un 25% mayor que el tamaño del error de estimación típico con la media. Obviamente, cuanto menor sea el "precio", mejor.
fuente
wilcox.test(..., conf.int=TRUE)
Si le gusta algo corto y fácil de digerir, eche un vistazo al siguiente artículo de la literatura psicológica:
Erceg-Hurn, DM y Mirosevich, VM (2008). Métodos estadísticos sólidos y modernos: una manera fácil de maximizar la precisión y el poder de su investigación. Psicólogo estadounidense , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591
Se basan principalmente en los libros de Rand R Wilcox (que ciertamente no son demasiado matemáticos):
Wilcox, RR (2001). Fundamentos de los métodos estadísticos modernos: mejorar sustancialmente el poder y la precisión. Nueva York; Berlín: Springer.
Wilcox, RR (2003). Aplicación de técnicas estadísticas contemporáneas. Amsterdam Boston: Academic Press.
Wilcox, RR (2005). Introducción a la estimación robusta y la prueba de hipótesis. Prensa Académica
fuente
Un libro que combina bastante bien la teoría con la práctica es Robust Statistical Methods with R, de Jurečková y Picek. También me gusta Robust Statistics , de Maronna et al. Sin embargo, ambos pueden tener más matemáticas de las que te interesarían. Para un tutorial más aplicado enfocado en R, este PDF de BelVenTutorial puede ayudar.
fuente