Cuando se resuelven problemas de negocios utilizando datos, es común que al menos una suposición clave de que las estadísticas clásicas no sean válidas. La mayoría de las veces, nadie se molesta en verificar esas suposiciones, por lo que nunca se sabe.
Por ejemplo, que muchas de las métricas web comunes son de "cola larga" (en relación con la distribución normal) está, por ahora, tan bien documentado que lo damos por sentado. Otro ejemplo, las comunidades en línea, incluso en comunidades con miles de miembros, está bien documentado que, con mucho, la mayor parte de la contribución a / participación en muchas de estas comunidades es atribuible a un grupo minúsculo de 'súper contribuyentes'. (Por ejemplo, hace unos meses, justo después de que la API SO estuviera disponible en versión beta, un miembro de StackOverflow publicó un breve análisis de los datos que recopiló a través de la API; su conclusión: menos del uno por ciento de los miembros SO representan la mayor parte de la actividad en SO (presumiblemente haciendo preguntas y respondiéndolas), otro 1-2% representó el resto, y la abrumadora mayoría de los miembros no hacen nada).
Las distribuciones de ese tipo, de nuevo más a menudo la regla que la excepción, a menudo se modelan mejor con una función de densidad de ley de potencia . Para este tipo de distribuciones, incluso el teorema del límite central es problemático de aplicar.
Entonces, dada la abundancia de poblaciones como esta de interés para los analistas, y dado que los modelos clásicos tienen un rendimiento demostrablemente pobre en estos datos, y dado que los métodos robustos y resistentes han existido durante un tiempo (creo que al menos 20 años) ¿No se usan con más frecuencia? (También me pregunto por qué yo no los uso más a menudo, pero eso no es realmente una cuestión de validación cruzada .)
Sí, sé que hay capítulos de libros de texto dedicados por completo a estadísticas robustas y sé que hay (unos pocos) paquetes R (la base robusta es la que estoy familiarizado y uso), etc.
Y sin embargo, dadas las ventajas obvias de estas técnicas, a menudo son claramente las mejores herramientas para el trabajo. ¿ Por qué no se usan con mucha más frecuencia ? ¿No deberíamos esperar ver estadísticas robustas (y resistentes) utilizadas con mucha más frecuencia (tal vez incluso presuntamente) en comparación con los análogos clásicos?
La única explicación sustantiva (es decir, técnica) que he escuchado es que las técnicas robustas (también para los métodos resistentes) carecen del poder / sensibilidad de las técnicas clásicas. No sé si esto es cierto en algunos casos, pero sí sé que no es cierto en muchos casos.
Una última palabra de preferencia: sí, sé que esta pregunta no tiene una única respuesta demostrablemente correcta; muy pocas preguntas en este sitio hacen. Además, esta pregunta es una investigación genuina; No es un pretexto para avanzar un punto de vista: no tengo un punto de vista aquí, solo una pregunta para la que espero algunas respuestas perspicaces.
Respuestas:
Los investigadores quieren valores p pequeños, y puede obtener valores p más pequeños si utiliza métodos que hacen suposiciones de distribución más fuertes. En otras palabras, los métodos no robustos le permiten publicar más artículos. Por supuesto, más de estos documentos pueden ser falsos positivos, pero una publicación es una publicación. Esa es una explicación cínica, pero a veces es válida.
fuente
Entonces, los 'modelos clásicos' (sean lo que sean, supongo que se refiere a algo así como modelos simples enseñados en libros de texto y estimados por ML) fallan en algunos, tal vez muchos, conjuntos de datos del mundo real.
Si un modelo falla, existen dos enfoques básicos para solucionarlo:
Los enfoques estadísticos sólidos, cuasi-verosimilitud y GEE adoptan el primer enfoque cambiando la estrategia de estimación a una en la que el modelo no sea válido para todos los puntos de datos (robusto) o no necesite caracterizar todos los aspectos de los datos (QL y GEE).
La alternativa es tratar de construir un modelo que modele explícitamente la fuente de puntos de datos contaminantes, o los aspectos del modelo original que parecen ser falsos, manteniendo el método de estimación igual que antes.
Algunos prefieren intuitivamente el primero (es particularmente popular en economía), y algunos prefieren intuitivamente el último (es particularmente popular entre los bayesianos, que tienden a ser más felices con los modelos más complejos, particularmente una vez que se dan cuenta de que van a utilizar herramientas de simulación para inferencia de todos modos).
Los supuestos de distribución de cola gruesa, por ejemplo, usar el binomio negativo en lugar de Poisson o t en lugar de lo normal, pertenecen a la segunda estrategia. La mayoría de las cosas etiquetadas como 'estadísticas robustas' pertenecen a la primera estrategia.
Como cuestión práctica, derivar estimadores para la primera estrategia para problemas realistas complejos parece ser bastante difícil. No es que sea una razón para no hacerlo, pero tal vez sea una explicación de por qué no se hace con tanta frecuencia.
fuente
Sugeriría que es un retraso en la enseñanza. La mayoría de las personas aprenden estadísticas en la universidad o la universidad. Si la estadística no es su primer título y, en cambio, obtuvo un título en matemática o informática, probablemente solo cubra los módulos de estadísticas fundamentales:
Esto significa que cuando se enfrenta a un problema, intenta usar lo que sabe para resolverlo.
A menos que te encuentres con otra cosa, es difícil hacer algo mejor. ¡Es muy difícil usar Google para encontrar algo si no sabes cómo se llama!
Creo que con todas las técnicas pasará un tiempo antes de que las nuevas técnicas se filtren. ¿Cuánto tiempo tomaron las pruebas de hipótesis estándar para formar parte de un plan de estudios estadístico estándar?
Por cierto, con un título en estadística todavía habrá un retraso en la enseñanza, ¡solo uno más corto!
fuente
Cualquier persona capacitada en análisis de datos estadísticos a un nivel razonable utiliza los conceptos de estadísticas robustas de manera regular. La mayoría de los investigadores saben lo suficiente como para buscar valores atípicos graves y errores de registro de datos; La política de eliminar puntos de datos sospechosos se remonta al siglo XIX con Lord Rayleigh, GG Stokes y otros de su edad. Si la pregunta es:
¿Por qué los investigadores no usan los métodos más modernos para calcular estimaciones de ubicación, escala, regresión, etc.?
entonces la respuesta se da arriba: los métodos se han desarrollado en gran medida en los últimos 25 años, digamos 1985-2010. El retraso para aprender nuevos métodos tiene en cuenta, así como la inercia, agravada por el "mito" de que no hay nada de malo en ciegamente usando métodos clásicos. John Tukey comenta que los métodos robustos / resistentes que use no son importantes, lo importante es que use algunos. Es perfectamente apropiado usar tanto métodos clásicos como robustos / resistentes de manera rutinaria, y solo se preocupa cuando difieren lo suficiente como para importar. Pero cuando difieren , debes pensar mucho .
Si en cambio, la pregunta es:
¿Por qué los investigadores no se detienen y hacen preguntas sobre sus datos, en lugar de aplicar a ciegas estimaciones altamente inestables?
entonces la respuesta realmente se reduce a la capacitación. Hay demasiados investigadores que nunca fueron capacitados en estadística de manera adecuada, resumidos por la dependencia general de los valores p como la "significación estadística" general y final.
@Kwak: Las estimaciones de Huber de la década de 1970 son sólidas, en el sentido clásico de la palabra: resisten los valores atípicos. Y los estimadores de redescendencia en realidad datan mucho antes de la década de 1980: el estudio de robustez de Princeton (de 1971) incluyó la estimación de ubicación cuadrada, una estimación de redescending.
fuente
Las estadísticas son una herramienta para los investigadores que no tienen una mentalidad estadística, y simplemente no les importa.
Una vez traté de ayudar con un artículo de Medicina que mi ex esposa estaba coautor. Escribí varias páginas describiendo los datos, lo que sugería, por qué ciertas observaciones habían sido excluidas del estudio ... y el investigador principal, un médico, tiró todo y le pidió a alguien que calcule un valor p, que es todo lo que ella dijo. (y a casi todos los que leerían el artículo) les importaba.
fuente
Doy una respuesta en dos direcciones:
desarrollo
En primer lugar, creo que hay muchos buenos enfoques en estadística (los encontrará en paquetes R no necesariamente mencionados en alguna parte) que son naturalmente robustos y probados en datos reales y el hecho de que no encuentra un algoritmo con "robusto "mencionado en alguna parte no significa que no sea robusto. De todos modos, si crees que ser robusto significa ser universal, entonces nunca encontrarás ningún procedimiento robusto (sin almuerzo gratis), necesitas tener algún conocimiento / experiencia sobre los datos que analizas para usar una herramienta adaptada o crear un modelo adaptado.
Por otro lado, algunos enfoques en estadística no son sólidos porque están dedicados a un solo tipo de modelo. Creo que es bueno alguna vez trabajar en un laboratorio para tratar de entender las cosas. También es bueno tratar el problema por separado para comprender qué problema es nuestra solución ... así es como funciona el matemático. El ejemplo del modelo elocante gaussiano: es muy criticado porque la suposición gaussiana nunca se cumple, pero ha aportado el 75% de las ideas utilizadas prácticamente en estadística en la actualidad. ¿Realmente crees que todo esto se trata de escribir papel para seguir la regla de publicar o perecer (que no me gusta, estoy de acuerdo)?
fuente
Como alguien que ha aprendido un poco de estadística para mi propia investigación, supongo que las razones son pedagógicas e inerciales.
He observado dentro de mi propio campo que el orden en que se enseñan los temas refleja la historia del campo. Esas ideas que vinieron primero se enseñan primero, y así sucesivamente. Para las personas que solo se sumergen en las estadísticas para la instrucción superficial, esto significa que aprenderán las estadísticas clásicas primero, y probablemente las últimas. Luego, incluso si aprenden más, las cosas clásicas se adhieren mejor a ellas debido a los efectos de la primacía.
Además, todos saben qué es una prueba t de dos muestras. Menos de lo que todos saben lo que es una prueba de suma de rango de Mann-Whitney o Wilcoxon. Esto significa que tengo que ejercer un poco de energía para explicar cuál es mi prueba robusta, en lugar de no tener que ejercer ninguna con una prueba clásica. Tales condiciones obviamente resultarán en que menos personas usen métodos robustos de lo que deberían.
fuente
Wooldridge "Econometría introductoria: un enfoque moderno" 2E p.261.
Si los errores estándar robustos a la heterocedasticidad son válidos con más frecuencia que los errores estándar OLS habituales, ¿por qué nos molestan en absoluto los errores estándar habituales? ... Una razón por la que todavía se utilizan en el trabajo transversal es que, si el supuesto de homocedasticidad es válido y los errores se distribuyen normalmente, entonces las estadísticas t habituales tienen distribuciones t exactas, independientemente del tamaño de la muestra. Los errores estándar robustos y las estadísticas robustas t se justifican solo a medida que el tamaño de la muestra aumenta. Con tamaños de muestra pequeños, las estadísticas t robustas pueden tener distribuciones que no están muy cerca de la distribución t, y eso podría descartar nuestra inferencia. En tamaños de muestra grandes, podemos hacer un caso para informar siempre solo los errores estándar robustos a la heterocedasticidad en aplicaciones de sección transversal,
fuente
Si bien no son mutuamente excluyentes, creo que la creciente popularidad de las estadísticas bayesianas es parte de ello. Las estadísticas bayesianas pueden lograr muchos de los mismos objetivos a través de promedios previos y promedios de modelos, y tienden a ser un poco más robustos en la práctica.
fuente
No soy estadístico, mi experiencia en estadística es bastante limitada, solo uso estadísticas sólidas en visión por computadora / reconstrucción 3D / estimación de pose. Aquí está mi opinión sobre el problema desde el punto de vista del usuario:
Primero, las estadísticas robustas se utilizan mucho en ingeniería y ciencia sin llamarlo "estadísticas robustas". Mucha gente lo usa intuitivamente, llegando a él en el proceso de ajustar un método específico a un problema del mundo real. Por ejemplo, mínimos cuadrados iterativos reponderados y medios recortados / mínimos cuadrados recortados utilizados comúnmente, que solo el usuario no sabe que usaron estadísticas robustas, simplemente hacen que el método sea viable para datos reales no sintéticos.
En segundo lugar, tanto las estadísticas robustas "intuitivas" como las conscientes se utilizan prácticamente siempre en el caso de que los resultados sean verificables o donde existan métricas de error claramente visibles. Si el resultado obtenido con una distribución normal es obviamente no válido o incorrecto, las personas comienzan a jugar con pesas, recortar, muestrear, leer algunos artículos y terminar usando estimadores robustos, ya sea que conozcan el término o no. Por otro lado, si el resultado final de la investigación es solo algunos gráficos y diagramas, y no hay insensibilidad para verificar los resultados, o si la estadística normal produce resultados lo suficientemente buenos, la gente simplemente no se molesta.
Y, por último, sobre la utilidad de las estadísticas sólidas como teoría, aunque la teoría en sí misma es muy interesante, a menudo no ofrece ventajas prácticas. La mayoría de los estimadores robustos son bastante triviales e intuitivos, a menudo las personas los reinventan sin ningún conocimiento estadístico. La teoría, como la estimación del punto de ruptura, los asintóticos, la profundidad de los datos, la heterocedacidad, etc., permiten una comprensión más profunda de los datos, pero en la mayoría de los casos es simplemente innecesario. Una gran excepción es la intersección de estadísticas robustas y sensores de compresión, que producen algunos métodos prácticos nuevos, como "cruce y ramo".
fuente
Mi conocimiento de estimadores robustos se refiere únicamente a errores estándar robustos para parámetros de regresión, por lo que mi comentario solo se referirá a esos. Sugeriría que la gente lea este artículo,
Sobre el llamado "Estimador de Sandwich Huber" y "Errores estándar robustos" por: Freedman, A. David The American Statistician, vol. 60, núm. 4. (noviembre de 2006), págs. 299-302. doi: 10.1198 / 000313006X152207 ( versión PDF )
En particular, lo que me preocupa con estos enfoques no es que estén equivocados, sino que simplemente distraen de problemas más grandes. Por lo tanto, estoy totalmente de acuerdo con la respuesta de Robin Girard y su mención de "no hay almuerzo gratis".
fuente
El cálculo y la probabilidad necesarios para estadísticas sólidas es (generalmente) más difícil, por lo que (a) hay menos teoría y (b) es más difícil de comprender.
fuente
Me sorprende ver que el teorema de Gauss-Markov no se menciona en esta larga lista de respuestas, afaics:
En un modelo lineal con errores esféricos (que a lo largo del camino incluye la suposición de que no hay valores atípicos, a través de una varianza de error finita), el OLS es eficiente en una clase de estimadores lineales insesgados: existen condiciones (restrictivas, para estar seguros) bajo las cuales " no puedes hacerlo mejor que OLS ".
No estoy argumentando que esto debería justificar el uso de OLS casi todo el tiempo, pero sin duda contribuye a por qué (especialmente porque es una buena excusa para centrarse tanto en OLS en la enseñanza).
fuente
Supongo que las estadísticas sólidas nunca son suficientes, es decir, para ser sólidas, estas estadísticas omiten parte de la información sobre la distribución. Y sospecho que no siempre es algo bueno. En otras palabras, existe una compensación entre robustez y pérdida de información.
fuente