¿Ejemplos en los que el método de los momentos puede vencer la máxima probabilidad en muestras pequeñas?

57

Los estimadores de máxima verosimilitud (MLE) son asintóticamente eficientes; vemos el resultado práctico en que a menudo les va mejor que las estimaciones del método de momentos (MoM) (cuando difieren), incluso con tamaños de muestra pequeños

Aquí 'mejor que' significa en el sentido de tener típicamente una varianza menor cuando ambas son insesgadas y, en general, un error cuadrado medio (MSE) más pequeño.

La pregunta, sin embargo, ocurre:

¿Hay casos en los que el MoM puede vencer al MLE , por ejemplo, en MSE , en pequeñas muestras?

(donde esta no es una situación extraña / degenerada, es decir, dadas las condiciones para que el ML exista / sea una retención asintóticamente eficiente)

Una pregunta de seguimiento sería: "¿Qué tan grande puede ser pequeño?" Es decir, si hay ejemplos, ¿hay algunos que aún se mantengan en tamaños de muestra relativamente grandes, tal vez incluso todos los tamaños de muestra finitos?

[Puedo encontrar un ejemplo de un estimador sesgado que puede vencer a ML en muestras finitas, pero no es MoM.]


Nota agregada retrospectivamente: mi enfoque aquí es principalmente en el caso univariante (que en realidad es de donde proviene mi curiosidad subyacente). No quiero descartar casos multivariados, pero tampoco quiero desviarme en discusiones extensas sobre la estimación de James-Stein.

Glen_b
fuente
No hay problema; nos sucede a todos y a mí más a menudo que a ti. Probablemente debería haberlo puesto en el título, pero ya era bastante largo.
Glen_b
@cardinal He aclarado los criterios ahora.
Glen_b
3
Hay otras formas en que el método de los momentos puede "vencer" la máxima probabilidad. Por ejemplo, en problemas de estimación de mezclas normales, el MLE es notoriamente difícil de calcular mientras que el MoM no lo es.
vqv
@vqv Ciertamente, ese es un sentido en el que MoM puede ser preferible.
Glen_b
2
Como tiendo a simpatizar con los plebeyos, informo que en una muestra de uniformes iid , el estimador de MoM para θ tiene el mismo MSE con el patricio (MLE) si el tamaño de la muestra es 1 o 2 . .. Pero, por desgracia, para muestras de mayor tamaño, el patricio afirma su soberanía de nuevo ...U(0,θ)θ12
Alecos Papadopoulos

Respuestas:

36

Esto puede considerarse ... trampa, pero el estimador OLS es un estimador MoM. Considere una especificación de regresión lineal estándar (con regresores estocásticos, por lo que las magnitudes están condicionadas a la matriz del regresor), y una muestra de tamaño n . Denote s 2 el estimador MCO de la varianza σ 2 del término de error. Es imparcial asíKns2σ2

MSE(s2)=Var(s2)=2σ4nK

Considere ahora el MLE de . Estáσ2

¿Está sesgado? Su MSE es

σ^ML2=nKns2

Expresando la MLE en términos de los OLS y el uso de la expresión para el estimador OLS varianza que obtenemos

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2

MSE( σ 2 M L )=2(n-K)+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

Queremos las condiciones (si existen) bajo las cuales

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2 n 2 - 4 n K + 2 K 2 + n K 2 - K 3 > 2 n 2 Simplificando obtenemos - 4 n + 2 K + n K - K 2 > 0 K

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
¿Es factible que esta cuadrática en K obtenga valores negativos? Necesitamos que su discriminante sea positivo. Tenemos Δ K = ( n + 2 ) 2 - 16 n = n 2 + 4 n + 4 - 16 n = n 2 - 12 n + 4 que es otra cuadrática, en n
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
nesta vez. Este discriminante es entonces n 1 , n 2 = 12 ±
Δn=12242=816
para tener en cuenta el hecho de quenes un número entero. Sinestá dentro de este intervalo, tenemos que ΔK<0y la cuadrática enKsiempre toma valores positivos, por lo que no podemos obtener la desigualdad requerida. Entonces:necesitamos un tamaño de muestra mayor que 12.
n1,n2=12±8162=6±42n1,n2={1,12}
nnΔK<0K

Dado esto, las raíces de cuadrático sonK

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47para que la desigualdad se mantenga. Es interesante que para un pequeño número de regresores, el MLE es mejor en el sentido MSE.


K

K1,K2=(n2+1)±(n2+1)24n
55
Alecos Papadopoulos
fuente
1
E(uuX)=σ2E(uuX)σ2
1
nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2nen el denominador
chico
2
nKn
1
@guy (CONT.). Entonces, lo que está diciendo es que el estimador MoM de la varianza del error en este caso es el estimador de máxima verosimilitud, por lo que el resultado que obtuve no compara MoM con ML, sino ML con OLS (esta última es una categoría por sí sola). .. sí, se puede argumentar que este es (también) el caso.
Alecos Papadopoulos
1
eE(e2)=nknσ2σ2s2
17

"En este artículo, consideramos una nueva parametrización de la distribución gaussiana inversa de dos parámetros. Encontramos los estimadores de los parámetros de la distribución gaussiana inversa por el método de los momentos y el método de máxima verosimilitud. Luego, comparamos la eficiencia de la estimadores para los dos métodos basados ​​en su sesgo y error cuadrático medio (MSE). Para esto, fijamos valores de parámetros, ejecutamos simulaciones e informamos MSE y sesgo para las estimaciones obtenidas por ambos métodos. La conclusión es que cuando los tamaños de muestra son 10, el método de los momentos tiende a ser más eficiente que el método de máxima verosimilitud para estimar ambos parámetros (lambda y theta) ... " leer más

Hoy en día uno no puede (o no debe) confiar en todo lo publicado, pero la última página del periódico parece prometedora. Espero que esto aborde su nota agregada retrospectivamente.

Hibernando
fuente
1
θ
¡Buen descubrimiento! Incluso si los resultados están apagados, es bueno ver el reclamo explícitamente declarado en alguna parte.
Ben Ogorek
El documento al que me vinculé en mi respuesta se originó a partir de una tesis de maestría, que está disponible en su totalidad aquí: digi.library.tu.ac.th/thesis/st/0415 Ver, por ejemplo, la sección 5.2 para la declaración relevante. Seis personas, incluido un profesor titular, firmaron este resultado.
Hibernando el
14

Según las simulaciones realizadas por Hosking y Wallis (1987) en "Estimación de parámetros y cuantiles para la distribución de Pareto generalizada", los parámetros de la distribución de Pareto generalizada de dos parámetros dada por el cdf

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

o la densidad

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

son más confiables si se estiman por medio de MOM en lugar de ML. Esto es válido para muestras de hasta 500. Las estimaciones de MOM están dadas por

β^=y¯y2¯2(y2¯(y¯)2)

y

ξ^=12(y¯)22(y2¯(y¯)2)

con

y2¯=1ni=1nyi2

El documento contiene bastantes errores tipográficos (al menos mi versión sí). Los resultados para los estimadores MOM dados anteriormente fueron amablemente proporcionados por "heropup" en este hilo .

Joz
fuente
Gracias por esto. Es uno de los ejemplos más simples de lo que estaba buscando hasta ahora.
Glen_b
13

Encontré uno:

Para la distribución de potencia exponencial asimétrica

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

θσ

Delicado y Goria (2008),
una pequeña muestra de comparación de métodos de máxima verosimilitud, momentos y momentos L para la distribución de potencia exponencial asimétrica,
Journal Computational Statistics & Data Analysis
Volume 52 Issue 3, enero, pp 1661-1673

(ver también http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )

Glen_b
fuente
13

El método de los momentos (MM) puede superar el enfoque de máxima verosimilitud (ML) cuando es posible especificar solo algunos momentos de la población. Si la distribución está mal definida, los estimadores de ML no serán consistentes.

Suponiendo momentos finitos y observaciones iid, el MM puede proporcionar buenos estimadores con buenas propiedades asintóticas.

X1,,XnXff:RR+νk=Rxkf(x)dxkν4

Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
X8¯X4¯2Pν8ν42

ν4f

Un estudio de simulación:

Patriota y col. (2009) realizaron algunos estudios de simulación para verificar las tasas de rechazo de las pruebas de hipótesis en un modelo de errores en variables. Los resultados sugieren que el enfoque MM produce tasas de error bajo la hipótesis nula más cercana al nivel nominal que la ML para muestras pequeñas.

Nota histórica:

El método de los momentos fue propuesto por K. Pearson en 1894 "Contribuciones a la teoría matemática de la evolución". El método de máxima verosimilitud fue propuesto por RA Fisher en 1922 "Sobre los fundamentos matemáticos de la estadística teórica". Ambos artículos fueron publicados en las Transacciones filosóficas de la Royal Society of London, Serie A.

Referencia:

Fisher, RA (1922). Sobre los fundamentos matemáticos de la estadística teórica, las transacciones filosóficas de la Royal Society of London, Serie A, 222, 309-368.

Patriota, AG, Bolfarine, H, de Castro, M (2009). Un modelo de errores estructurales heterocedasticos en variables con error de ecuación, Metodología estadística 6 (4), 408-423 ( pdf )

Pearson, K (1894). Contribuciones a la teoría matemática de la evolución, transacciones filosóficas de la Royal Society of London, serie A, 185, 71-110.

Alexandre Patriota
fuente
1
Su respuesta suena como una potencialmente interesante. ¿Eres capaz de ampliarlo un poco? No estoy seguro de haberlo visto.
Glen_b
@Glen_b por favor, verifica si mi última adición te ayuda.
Alexandre Patriota
Gracias por eso; Creo que veo a qué te refieres.
Glen_b
OK, es un comentario general pero creo que responde a tu pregunta. Si proporciona información total sobre el comportamiento de los datos, es bastante natural que el enfoque ML supere al enfoque MM. En el artículo [1] realizamos algunos estudios de simulación para verificar las tasas de rechazo de las pruebas de hipótesis en un modelo de errores en variables. Los resultados sugieren que el enfoque MM produce tasas de error bajo la hipótesis nula más cercana al nivel nominal que la ML para muestras pequeñas. [1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
Alexandre Patriota
Este es un ejemplo atípico de método de momentos (MoM). MoM generalmente se implementa en problemas de estimación paramétrica, donde hay una familia de distribuciones paramétricas bien definidas. Por otro lado, aquí puede definir una estimación no paramétrica de máxima verosimilitud. La función de distribución empírica, digamos F-hat, es la estimación no paramétrica de máxima verosimilitud de la función de distribución desconocida F. Considerando que el 4to momento es funcional de F, el MLE no paramétrico del 4to momento es el 4to momento del F-hat . Esto es lo mismo que la muestra del 4to momento.
vqv
5

Fuentes adicionales a favor de MOM:

Hong, HP y W. Ye. 2014. Análisis de cargas extremas de nieve en tierra para Canadá utilizando registros de profundidad de nieve . Peligros naturales 73 (2): 355-371.

El uso de MML podría dar predicciones poco realistas si el tamaño de la muestra es pequeño (Hosking et al. 1985; Martin y Stedinger 2000).


Martins, ES y JR Stedinger. 2000. Estimadores de cuantiles de valor extremo generalizados de probabilidad máxima generalizados para datos hidrológicos . Water Resources Research 36 (3): 737-744.

Resumen:

La distribución de valores extremos generalizados (GEV) de tres parámetros ha encontrado una amplia aplicación para describir inundaciones anuales, precipitaciones, velocidades del viento, altura de las olas, profundidades de nieve y otros máximos. Estudios previos muestran que los estimadores de parámetros de máxima probabilidad de muestra pequeña (MLE) de parámetros son inestables y recomiendan estimadores de momento L. Investigaciones más recientes muestran que los estimadores de cuantiles del método de momentos tienen un error −0.25 <κ <0.30 más pequeño de raíz cuadrática media que los momentos L y MLE. El examen del comportamiento de los MLE en muestras pequeñas demuestra que se pueden generar valores absurdos del parámetro de forma de GEV κ. El uso de una distribución previa bayesiana para restringir los valores de κ a un rango estadísticamente / físicamente razonable en un análisis generalizado de máxima verosimilitud (GML) elimina este problema.

En las secciones de Introducción y Revisión de Literatura, citan documentos adicionales que concluyeron que MOM en algunos casos supera a MLE (nuevamente modelado de valor extremo), por ejemplo

Hosking y col. [1985a] muestran que los estimadores de parámetros MLE de muestra pequeña son muy inestables y recomiendan estimadores de momento ponderado por probabilidad (PWM) que son equivalentes a los estimadores de momento L [Hosking, 1990]. [...]

Hosking y col. [1985a] mostró que los estimadores de momentos ponderados por probabilidad (PM) o equivalentes de momentos L (LM) para la distribución de GEV son mejores que los estimadores de máxima verosimilitud (MLE) en términos de sesgo y varianza para tamaños de muestra que varían de 15 a 100. Más recientemente, Madsen et al. [1997a] demostró que los estimadores de cuantiles del método de momentos (MOM) tienen un RMSE (raíz-cuadrado-cuadrado más pequeño) para -0.25 <K <0.30 que LM y MLE al estimar el evento de 100 años para tamaños de muestra de 10-50 . Los MLE son preferibles solo cuando K> 0.3 y los tamaños de muestra son modestos (n> = 50).

K (kappa) es el parámetro de forma de GEV.

documentos que aparecen en las citas:

Hosking J, Wallis J, Wood E (1985) Estimación de la distribución generalizada de valores extremos por el método de los momentos ponderados por la probabilidad . Technometrics 27: 251–261.

Madsen, H., PF Rasmussen y D. Rosbjerg (1997) Comparación de series anuales máximas y métodos de series de duración parcial para modelar eventos hidrológicos extremos , 1, Modelado en sitio, Water Resour. Res., 33 (4), 747-758.

Hosking, JRM, L-moments: Análisis y estimación de distribuciones utilizando combinaciones lineales de estadísticas de pedidos , JR Stat. Soc., Ser. B, 52, 105-124, 1990.


Además, tengo la misma experiencia que se concluyó en los documentos anteriores, en caso de modelar eventos extremos con un tamaño de muestra pequeño y moderado (<50-100, lo cual es típico) MLE puede dar resultados poco realistas, la simulación muestra que MOM es más robusto y tiene RMSE más pequeño.

Arpi
fuente
3

En el proceso de responder esto: Estimando los parámetros para un binomio me topé con este artículo:

Ingram Olkin, A John Petkau, James V Zidek: Una comparación de los estimadores de N para la distribución binomial. Jasa 1981.

NBin(N,p)p

kjetil b halvorsen
fuente
Una cosa que es muy agradable de este ejemplo es que es muy simple transmitir la situación: muchas personas están familiarizadas con el binomio (al menos en concepto, si no siempre con el nombre).
Glen_b