Idea e intuición detrás de la estimación cuasi máxima verosimilitud (QMLE)

17

Pregunta (s): ¿Cuál es la idea y la intuición detrás de la estimación cuasi máxima verosimilitud (QMLE; también conocida como pseudo estimación de máxima verosimilitud, PMLE)? ¿Qué hace que el estimador funcione cuando la distribución de error real no coincide con la distribución de error supuesta?

El sitio de Wikipedia para QMLE está bien (breve, intuitivo, al grano), pero podría usar algo más de intuición y detalles, quizás también una ilustración. Otras referencias son bienvenidas. (Recuerdo que revisé bastantes libros de texto de econometría en busca de material sobre QMLE, y para mi sorpresa, QMLE solo estaba cubierto en uno o dos de ellos, por ejemplo, Wooldridge "Análisis econométrico de datos de sección transversal y panel" (2010), Capítulo 13 Sección 11, págs. 502-517.)

Richard Hardy
fuente
2
¿Has leído los documentos de White sobre esto?
hejseb
2
@hejseb, tal vez no, al menos no lo recuerdo del todo. ¿Es este ?
Richard Hardy
1
Sí, ese es el Se basa en gran medida en Huber (1967) , por supuesto, y lo reconoce completamente. Pero lo siguiente en econometría apenas lo hace. Y el artículo de Huber, con el debido respeto, es apenas legible, en su nivel de tecnicismo; Hal White definitivamente contribuyó a una digestión más fácil del problema.
StasK

Respuestas:

7

"¿Qué hace que el estimador funcione cuando la distribución de error real no coincide con la distribución de error supuesta?"

En principio, el QMPLE no "funciona", en el sentido de ser un "buen" estimador. La teoría desarrollada en torno al QMLE es útil porque ha llevado a pruebas de especificación errónea.

Lo que el QMLE ciertamente hace es estimar consistentemente el vector de parámetros que minimiza la divergencia de Kullback-Leiber entre la distribución verdadera y la especificada. Esto suena bien, pero minimizar esta distancia no significa que la distancia minimizada no sea enorme.

Aún así, leemos que hay muchas situaciones en las que el QMLE es un estimador consistente para el verdadero vector de parámetros. Esto tiene que evaluarse caso por caso, pero permítanme dar una situación muy general, que muestra que no hay nada inherente en el QMLE que lo haga consistente para el vector verdadero ...

... Más bien es el hecho de que coincide con otro estimador que siempre es consistente (manteniendo el supuesto de la muestra ergódica-estacionaria): el estimador anticuado del Método de los Momentos.

En otras palabras, cuando tenga dudas acerca de la distribución, una estrategia a considerar es "especificar siempre una distribución para la cual el estimador de máxima verosimilitud para los parámetros de interés coincida con el estimador del método de momentos" : de esta manera, no importa cuán fuera de lugar es su suposición distributiva, el estimador al menos será consistente.

Puede llevar esta estrategia a extremos ridículos: suponga que tiene una muestra iid muy grande de una variable aleatoria, donde todos los valores son positivos. Continúe y suponga que la variable aleatoria se distribuye normalmente y aplique la máxima probabilidad para la media y la varianza: su QMLE será consistente para los valores verdaderos.

Por supuesto, esto plantea la pregunta, ¿por qué pretender aplicar MLE ya que lo que estamos haciendo esencialmente es confiar y escondernos detrás de las fortalezas de Method of Moments (que también garantiza la normalidad asintótica)?

En otros casos más refinados, se puede demostrar que QMLE es consistente para los parámetros de interés si podemos decir que hemos especificado correctamente la función media condicional pero no la distribución (este es, por ejemplo, el caso de Poisson QMLE agrupado - ver Wooldridge) .

Alecos Papadopoulos
fuente
Esto es interesante. ¿Podría agregar algunas referencias para tal teoría?
kjetil b halvorsen
1
@kjetilbhalvorsen Este no es un marco teórico desarrollado, ya que solo sintetiza de manera obvia algunos resultados muy básicos. La síntesis apareció en mi cabeza mientras estaba siendo atormentado con respecto a las consecuencias de la especificación errónea. Y creo que también hay un lado "político" en el que no se promociona en voz alta en los documentos de investigación: no quisiéramos destronar al Rey MLE, ahora, ¿verdad?
Alecos Papadopoulos
8

0=i=1nS(β,Xi,Yi)=DTW(Yg1(XTβ))
D=βg1(XTβ)W=V1

Curiosamente, sin embargo, esta formulación se basó en un estimador de tipo de método de momentos en el que uno podría simplemente "establecer lo que desea estimar" en el RHS de la expresión entre paréntesis, y confiar en que la expresión convergería en "ese interesante cosa". Era una forma proto de estimar ecuaciones.

Las ecuaciones de estimación no eran un concepto nuevo. De hecho, desde 1870 y principios de 1900, los intentos de presentar los EE teoremas de límite derivados correctamente de EE utilizando expansiones de Taylor, pero la falta de conexión con un modelo probabilístico fue motivo de controversia entre los revisores críticos.

S

Sin embargo, en contraste con la respuesta anterior, la quasilikelihood se ha utilizado ampliamente. Una discusión muy agradable en McCullogh y Nelder trata sobre el modelado poblacional de cangrejos herradura. No muy diferente de los humanos, sus hábitos de apareamiento son simplemente extraños: donde muchos machos pueden acudir en masa a una sola hembra en "grupos" no medidos. Desde una perspectiva ecologista, observar estos grupos está mucho más allá del alcance de su trabajo, pero llegar a las predicciones del tamaño de la población a partir de la captura y liberación planteó un desafío significativo. Resulta que este patrón de apareamiento da como resultado un modelo de Poisson con una subdispersión significativa, es decir, la varianza es proporcional, pero no igual a la media.

Las dispersiones se consideran parámetros molestos en el sentido de que generalmente no basamos la inferencia sobre su valor, y estimarlas conjuntamente en una sola probabilidad da como resultado probabilidades muy irregulares. La cuasilikelihood es un área muy útil de estadística, especialmente a la luz del trabajo posterior sobre ecuaciones de estimación generalizadas .

AdamO
fuente
1
(+1) Respuesta muy útil.
Alecos Papadopoulos
2

Tenía una pregunta similar a la original publicada aquí por Richard Hardy. Mi confusión fue que los parámetros estimados a partir de cuasi-ML pueden no existir en la distribución "verdadera" desconocida. En este caso, ¿qué significa exactamente "consistencia"? ¿Con qué convergen los parámetros estimados?

Después de verificar algunas referencias ( White (1982) debería ser uno de los artículos originales, pero está cerrado. Una exposición útil que encontré es http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf ), mis pensamientos en inglés simple son los siguientes: después de admitir que la distribución que asumimos es solo una aproximación a la verdadera desconocida, lo práctico que podemos hacer es encontrar el valor del parámetro para minimizar su distancia (distancia de Kullback-Leiblerpara ser preciso). La belleza de la teoría es que, sin la necesidad de conocer la distribución verdadera, los parámetros estimados de cuasi-ML convergen a este parámetro de minimización de distancia (por supuesto, hay otros resultados útiles de la teoría, como la distribución asintótica de la estimación parámetros, etc., pero no son el foco de mi pregunta aquí).

Tal como mencionó Alecos Papadopolous en su respuesta anterior, la distancia minimizada aún podría ser grande. Entonces, la distribución que suponemos podría ser una aproximación pobre a la verdadera. Todo lo que puede hacer cuasi-ML es hacer que nuestra supuesta distribución sea lo más cercana posible a la verdadera desconocida. Espero que mi experiencia compartida aquí pueda ser útil para otros que tengan confusiones similares.

Franco
fuente