¿Por qué las pruebas de hipótesis básicas se centran en la media y no en la mediana?

32

En los cursos básicos de estadística de pregrado, a los estudiantes se les enseña (¿usualmente?) Pruebas de hipótesis para la media de una población.
¿Por qué se centra en la media y no en la mediana? Supongo que es más fácil probar la media debido al teorema del límite central, pero me encantaría leer algunas explicaciones educadas.

nafrtiti
fuente
3
La media tiene propiedades útiles para la unicidad, el cálculo y el cálculo. A menudo se relaciona con las estadísticas suficientes.
Henry

Respuestas:

40

Porque Alan Turing nació después de Ronald Fisher.

En los viejos tiempos, antes de las computadoras, todo esto tenía que hacerse a mano o, en el mejor de los casos, con lo que ahora llamaríamos calculadoras. Las pruebas para comparar medios se pueden hacer de esta manera: es laborioso, pero posible. Las pruebas para cuantiles (como la mediana) serían prácticamente imposibles de hacer de esta manera.

Por ejemplo, la regresión cuantil se basa en minimizar una función relativamente complicada. Esto no sería posible a mano. Es posible con la programación. Ver, por ejemplo, Koenker o Wikipedia .

La regresión cuantil tiene menos supuestos que la regresión OLS y proporciona más información.

Peter Flom - Restablece a Monica
fuente
66
En ese momento existían las computadoras , pero significaban algo muy diferente de lo que queremos decir con él ahora.
Maarten Buis
66
¡En efecto! Las computadoras eran personas que hacían los cálculos.
Peter Flom - Restablece a Monica
2
@nafrtiti El programa de estudios está cambiando, pero lentamente. Hay mucho impulso que superar y las personas ajenas a las estadísticas no están acostumbradas a las nuevas ideas, por lo que pueden rechazarlas.
Peter Flom - Restablece a Monica
3
@SunQingyao Ordenar es mucho más costoso que agregar. Agregar es O (n) y es una de las operaciones más básicas del hardware y solo requiere un registro. Además de eso, todo lo que necesito saber es el total y el número de elementos para obtener más datos y calcular la nueva media. Para calcular la mediana, necesito todo el set
JimmyJames
3
Con la selección rápida (y usando la mediana de 5 para seleccionar el pivote si se seleccionan aleatoriamente los pivotes incorrectos) puede encontrar un cuantil en O (N), haciendo que la brecha entre la mediana y el promedio sea menor. Por supuesto, necesita saber que tales métodos existen (lo cual era desconocido incluso en tiempos de Turings).
Surt
22

Me gustaría agregar una tercera razón a las razones correctas dadas por Harrell y Flom. La razón es que usamos la distancia euclidiana (o L2) y no la distancia de Manhattan (o L1) como nuestra medida estándar de cercanía o error. Si uno tiene un número de puntos de datos quiere un solo número θ para estimarlo, una noción obvia es encontrar el número que minimiza el 'error', ese número crea la menor diferencia entre el número elegido y Los números que constituyen los datos. En notación matemática, para una función de error dada E, uno quiere encontrar m i n θ R ( E ( θ ,x1,xnθ . Si se toma para E (x, y) la norma o distancia L2, es decir E ( x , y ) = ( x - y ) 2, entonces el minimizador sobre todo θ R es la media. Si uno toma la distancia L1 o Manhattan, el minimizador sobre todominθR(E(θ,x1,xn)=minθR(i=1i=nE(θ,xi))E(x,y)=(xy)2θR es la mediana. Por lo tanto, la media es la elección matemática natural, ¡si se usa la distancia L2!θR

aginensky
fuente
66
Dado que se usa ampliamente para denotar expectativas , sugiero reemplazar E con, digamos, Err . EEErr
Richard Hardy
3
Quizás valga la pena señalar que es diferenciable en x = 0 mientras | x | no es. En mi opinión, esta es una razón subyacente sutil pero clave por la cual MSE es más frecuente en el campo de la estadística matemática que MAE. x2x=0|x|
Just_to_Answer
1
@Just_to_Answer: creo que esa es otra razón más o menos. He pensado mucho en esto a lo largo de los años. Para mí, he concluido que lo que dices está relacionado con el por qué generalmente usamos Euclidean y no la distancia de Manhattan :)
aginensky
19

A menudo, la media se elige sobre la mediana no porque sea más representativa, robusta o significativa, sino porque las personas confunden estimador con estimado. Dicho de otra manera, algunos eligen la media poblacional como la cantidad de interés porque con una distribución normal la media muestral es más precisa que la mediana muestral. En cambio, deberían pensar más, como usted lo ha hecho, sobre la verdadera cantidad de interés.

Una barra lateral: tenemos un intervalo de confianza no paramétrico para la mediana de la población, pero no existe un método no paramétrico (aparte del método empírico de probabilidad numéricamente intensivo) para obtener un intervalo de confianza para la media de la población. Si desea permanecer sin distribución, puede concentrarse en la mediana.

Tenga en cuenta que el teorema del límite central es mucho menos útil de lo que parece, como se discutió en otra parte de este sitio. Asume efectivamente que la varianza es conocida o que la distribución es simétrica y tiene una forma tal que la varianza de la muestra es un estimador competitivo de la dispersión.

Frank Harrell
fuente
2
Creo que es posible construir un intervalo de confianza no paramétrico para la media, por ejemplo, a través de una prueba de permutación (esto se puede hacer bajo un supuesto de simetría sin asumir ninguna forma funcional específica, por ejemplo). Esa es una situación algo restringida, aunque también es posible bajo otras suposiciones que la simetría. Si está preparado para lidiar con la cobertura aproximada que viene con bootstrapping, puede obtener intervalos no paramétricos sin suposiciones como la simetría.
Glen_b -Reinstate Monica
2
Si asume simetría, es paramétrico. No he visto esto extendido a casos no simétricos. El bootstrap (todas las variantes excepto quizás el método t studentizado) es extremadamente inexacto bajo asimetría severa. Ver stats.stackexchange.com/questions/186957
Frank Harrell
55
La simetría no es paramétrica finita. Una prueba de rango con signo de Wilcoxon asume simetría (para tener signos de exhalación de signos) debajo de nulo. ¿Llamarías a eso paramétrico?
Glen_b -Reinstalar Monica
2
En @Glen_b pregunta sobre simetría, esa es una excelente pregunta. La prueba de rango con signo de Wilcoxon es un caso interesante porque, a diferencia de la prueba de 2 muestras de WIcocoon, hace una suposición de simetría pesada. Supongo que se podría decir que puede ser no paramétrico mientras se requiere algún tipo de suposición general, como la simetría. ¿Quizás la terminología debería ser "no paramétrica con restricciones"? Por otro lado, la prueba no paramétrica de 2 muestras tiene restricciones con respecto a lo que optimiza el error tipo II (pero no el error tipo I).
Frank Harrell