En los cursos básicos de estadística de pregrado, a los estudiantes se les enseña (¿usualmente?) Pruebas de hipótesis para la media de una población.
¿Por qué se centra en la media y no en la mediana? Supongo que es más fácil probar la media debido al teorema del límite central, pero me encantaría leer algunas explicaciones educadas.
hypothesis-testing
mean
inference
median
nafrtiti
fuente
fuente
Respuestas:
Porque Alan Turing nació después de Ronald Fisher.
En los viejos tiempos, antes de las computadoras, todo esto tenía que hacerse a mano o, en el mejor de los casos, con lo que ahora llamaríamos calculadoras. Las pruebas para comparar medios se pueden hacer de esta manera: es laborioso, pero posible. Las pruebas para cuantiles (como la mediana) serían prácticamente imposibles de hacer de esta manera.
Por ejemplo, la regresión cuantil se basa en minimizar una función relativamente complicada. Esto no sería posible a mano. Es posible con la programación. Ver, por ejemplo, Koenker o Wikipedia .
La regresión cuantil tiene menos supuestos que la regresión OLS y proporciona más información.
fuente
Me gustaría agregar una tercera razón a las razones correctas dadas por Harrell y Flom. La razón es que usamos la distancia euclidiana (o L2) y no la distancia de Manhattan (o L1) como nuestra medida estándar de cercanía o error. Si uno tiene un número de puntos de datos quiere un solo número θ para estimarlo, una noción obvia es encontrar el número que minimiza el 'error', ese número crea la menor diferencia entre el número elegido y Los números que constituyen los datos. En notación matemática, para una función de error dada E, uno quiere encontrar m i n θ ∈ R ( E ( θ ,x1,…xn θ . Si se toma para E (x, y) la norma o distancia L2, es decir E ( x , y ) = ( x - y ) 2, entonces el minimizador sobre todo θ ∈ R es la media. Si uno toma la distancia L1 o Manhattan, el minimizador sobre todominθ∈R(E(θ,x1,…xn)=minθ∈R(∑i=ni=1E(θ,xi)) E(x,y)=(x−y)2 θ∈R es la mediana. Por lo tanto, la media es la elección matemática natural, ¡si se usa la distancia L2!θ∈R
fuente
A menudo, la media se elige sobre la mediana no porque sea más representativa, robusta o significativa, sino porque las personas confunden estimador con estimado. Dicho de otra manera, algunos eligen la media poblacional como la cantidad de interés porque con una distribución normal la media muestral es más precisa que la mediana muestral. En cambio, deberían pensar más, como usted lo ha hecho, sobre la verdadera cantidad de interés.
Una barra lateral: tenemos un intervalo de confianza no paramétrico para la mediana de la población, pero no existe un método no paramétrico (aparte del método empírico de probabilidad numéricamente intensivo) para obtener un intervalo de confianza para la media de la población. Si desea permanecer sin distribución, puede concentrarse en la mediana.
Tenga en cuenta que el teorema del límite central es mucho menos útil de lo que parece, como se discutió en otra parte de este sitio. Asume efectivamente que la varianza es conocida o que la distribución es simétrica y tiene una forma tal que la varianza de la muestra es un estimador competitivo de la dispersión.
fuente