¿Por qué estimamos la media usando MLE cuando ya sabemos que la media es el promedio de los datos?

11

Me he encontrado con un problema en el libro de texto para estimar la media. El problema del libro de texto es el siguiente:

Supongamos que puntos de datos, , ,. . . , , han sido generados por un pdf gaussiano unidimensional de media desconocida, pero de varianza conocida. Derive la estimación de ML de la media.nortex1x2xnorte

Mi pregunta es, ¿por qué necesitamos estimar la media usando MLE cuando ya sabemos que la media es el promedio de los datos? La solución también dice que la estimación MLE es el promedio de los datos. ¿Necesito hacer todos los pasos agotadores de MLE para descubrir que la media no es más que el promedio de los datos, es decir ?(x1+x2++xnorte)/ /norte

Niranjan Kotha
fuente
10
Puede confundirse con dos significados distintos de la palabra "significar". En esta pregunta, lo usa para referirse a (a) un parámetro de una familia de distribuciones gaussianas y (b) una estadística que se puede calcular a partir de los datos. Es posible que desee explorar lo que este sitio tiene para decir sobre MLE y los parámetros .
whuber
1
¿Qué hay de proporcionar la referencia para el libro de texto que cita?
Xi'an

Respuestas:

13

¿Por qué necesitamos estimar la media usando MLE cuando ya sabemos que la media es el promedio de los datos?

El problema del libro de texto dice que X1,X2,...,Xnorte es desde

X12πσmi-(X-μ)22σ2
Te dicen que σ es conocido, pero μ tiene que ser estimado.

¿Es realmente tan obvio que una buena estimación μ^=X¯?!

Aquí, X¯=1norteyo=1norteXyo.

No era obvio para mí, y me sorprendió bastante ver que, de hecho, es una estimación MLE.

Además, considere esto: ¿y si μ era conocido y σ¿desconocido? En este caso, el estimador MLE es

σ^2=1norteyo=1norte(X-X¯)2

¡Observe cómo este estimador no es lo mismo que un estimador de varianza muestral! ¿No "ya sabemos" que la varianza muestral viene dada por la siguiente ecuación?

s2=1norte-1yo(X-X¯)2
Aksakal
fuente
molesta mascota molesta: s2 no es la varianza muestral σ^2es.
Cliff AB
1
@CliffAB Creo que no hay falta de soporte para llamar sN12"la varianza muestral". Solo como ejemplo, la página de Wikipedia en la corrección de Bessel lo llama así. Muchos libros también lo hacen. Preferiría inclinarme hacia su terminología, pero creo que probablemente sea demasiado fuerte para decirsN12no es la varianza de la muestra en estos días: la terminología está muy extendida, probablemente más utilizada que la llamadasN2con ese nombre
Glen_b -Reinstale a Monica
1
@Glen_b Fui educado para llamar sN2 la "varianza de la muestra" (como en "varianza de la muestra, por derecho propio") y sN12la "varianza de la población (estimada)" (como en una estimación imparcial , ya que como lo demuestra esta publicación,sNTambién es un estimador útil). Pero hace unos años tomé una "encuesta" (no aleatoria) de libros de texto y manuales de calculadora y descubrí que mi uso era muy minoritario, aunque encontré muchos ejemplos de ambos. No sé si esto es una tendencia. [Además, simplemente viejos y σ^ son irritantemente ambiguos a veces ... aprecio el N y N1!]
Silverfish
@CliffAB, he visto s2 usó mucho en econometría para una varianza muestral y σ2para el parámetro de población, por ejemplo, en Greene "Análisis econométrico".
Aksakal
1
@CliffAB, no hice la terminología, pero tal vez la justificación en econometría fue que siempre hay más de un estimador de cualquier cosa, incluida la varianza. Entonces,σ^2 no sería lo suficientemente específico, parecería referirse a cualquier número de estimador que se pueda encontrar, mientras que s2tiene un significado específico de las desviaciones cuadradas promedio. Ahora, en contexto OLSs2=miminorte-k, dónde kes el número de parámetros Como ves, no siempre esnorte-1, por lo que incluso esta notación no es absolutamente específica, pero se supone que ajustamos por el número de parámetros.
Aksakal
8

En este caso, la media de la muestra pasa a ser también el estimador de máxima verosimilitud. Por lo tanto, hacer todo el trabajo deriva el MLE se siente como un ejercicio innecesario, ya que vuelve a su estimación intuitiva de la media que habría utilizado en primer lugar. Bueno, esto no fue "solo por casualidad"; Esto fue elegido específicamente para mostrar que los estimadores MLE a menudo conducen a estimadores intuitivos.

Pero, ¿y si no hubiera un estimador intuitivo? Por ejemplo, suponga que tiene una muestra de variables aleatorias iid gamma y está interesado en estimar la forma y los parámetros de velocidad. Quizás podría intentar razonar un estimador a partir de las propiedades que conoce sobre las distribuciones Gamma. Pero, ¿cuál sería la mejor manera de hacerlo? ¿Usando alguna combinación de la media estimada y la varianza? ¿Por qué no usar la mediana estimada en lugar de la media? O el log-mean? Todo esto podría usarse para crear algún tipo de estimador, pero ¿cuál será bueno?

Como resultado, la teoría MLE nos brinda una excelente manera de obtener una respuesta sucinta a esa pregunta: tome los valores de los parámetros que maximizan la probabilidad de los datos observados (lo que parece bastante intuitivo) y utilícelo como su estimación. De hecho, tenemos una teoría que establece que, bajo ciertas condiciones, este será aproximadamente el mejor estimador. Esto es mucho mejor que tratar de encontrar un estimador único para cada tipo de datos y luego pasar mucho tiempo preocupándose si realmente es la mejor opción.

En resumen: aunque MLE no proporciona una nueva visión en el caso de estimar la media de los datos normales , en general es una herramienta muy, muy útil.

Acantilado
fuente
2

Es una cuestión de vocabulario confuso, como lo ilustran esas citas, directamente de google:


sustantivo promedio : promedio; sustantivo plural: promedios

  1. un número que expresa el valor central o típico en un conjunto de datos, en particular la moda, la mediana o (más comúnmente) la media, que se calcula dividiendo la suma de los valores en el conjunto por su número. "la proporción de mayores de 60 años está por encima de la media de la UE del 19%" sinónimos: media, mediana, moda, punto medio, centro

No es la mejor definición, estoy de acuerdo! Especialmente cuando se sugiere significar como sinónimo. Creo que el promedio es más apropiado para conjuntos de datos o muestras como enX¯ y no debe usarse para distribuciones, como μ en norte(μ,σ²).

media

En matemáticas, la media tiene varias definiciones diferentes según el contexto.

En probabilidad y estadística, la media y el valor esperado se usan como sinónimos para referirse a una medida de la tendencia central, ya sea de una distribución de probabilidad o de la variable aleatoria caracterizada por esa distribución. En el caso de una distribución de probabilidad discreta de una variable aleatoria X, la media es igual a la suma sobre cada valor posible ponderado por la probabilidad de ese valor; es decir, se calcula tomando el producto de cada valor posible x de X y su probabilidad P (x), y luego sumando todos estos productos, dandoμ=XPAGS(X).

Para un conjunto de datos, los términos media aritmética, expectativa matemática y, a veces, promedio se usan como sinónimos para referirse a un valor central de un conjunto discreto de números: específicamente, la suma de los valores dividida por el número de valores. La media aritmética de un conjunto de números.X1,X2,...,Xnorte normalmente se denota por X¯, pronunciado "x bar". Si el conjunto de datos se basó en una serie de observaciones obtenidas por muestreo de una población estadística, la media aritmética se denomina media muestral (indicadaX¯) para distinguirlo de la media de la población (denotado μ o μX)

Como sugiere esta entrada de Wikipedia , la media se aplica tanto a distribuciones como a muestras o conjuntos de datos. La media de un conjunto de datos o muestra también es la media de la distribución empírica asociada con esta muestra. La entrada también ejemplifica la posibilidad de una confusión entre los términos, ya que da el promedio y la expectativa como sinónimos.

expectativa sustantivo: expectativa; sustantivo plural: expectativas

  1. Matemáticas: otro término para el valor esperado.

Restringiría el uso de la expectativa a un objeto obtenido por una integral, como en

mi[X]=XXrePAGS(X)
pero el promedio de una muestra es una vez más la expectativa asociada con la distribución empírica derivada de esta muestra.
Xi'an
fuente