Parámetros de estimación de la distribución t de Student

23

¿Cuáles son los estimadores de máxima verosimilitud para los parámetros de la distribución t de Student? ¿Existen en forma cerrada? Una búsqueda rápida en Google no me dio ningún resultado.

Hoy estoy interesado en el caso univariante, pero probablemente tendré que extender el modelo a múltiples dimensiones.

EDITAR: en realidad estoy principalmente interesado en los parámetros de ubicación y escala. Por ahora puedo suponer que el parámetro de grados de libertad es fijo, y posiblemente usar algún esquema numérico para encontrar el valor óptimo más adelante.

Grzenio
fuente
Que yo sepa, no existen en forma cerrada. Puede ser necesario un enfoque de tipo de ascenso en gradiente.
Pat
Aunque la distribución t de Student tiene un único parámetro, usted se refiere a "parámetros" en plural. ¿Quizás incluye parámetros de ubicación y / o escala?
whuber
@whuber, gracias por el comentario, estoy realmente interesado en los parámetros de ubicación y escala, más que en los grados de libertad.
Grzenio
Con n datos, la ecuación de probabilidad para el parámetro de ubicación es algebraicamente equivalente a un polinomio de grado 2norte-1 . ¿Considera que un cero de tal polinomio se dé en "forma cerrada"?
whuber
@whuber, ¿hay casos especiales para n pequeña, por ejemplo n = 3?
Grzenio

Respuestas:

27

La forma cerrada no existe para T, pero un enfoque muy intuitivo y estable es a través del algoritmo EM. Ahora, dado que el alumno es una mezcla a escala de normales, puede escribir su modelo como

yyo=μ+miyo

donde y w iG a ( νmiyoEl |σ,wyonorte(0 0,σ2wyo-1). Esto significa que condicionalmente enwithe mle son solo la media ponderada y la desviación estándar. Este es el paso "M"wyosoluna(ν2,ν2)wyo

sigma 2=Σiwi(yi - μ )2

μ^=yowyoyyoyowyo
σ^2=iwi(yiμ^)2n

Ahora el paso "E" reemplaza con su expectativa dada toda la información. Esto se da como:wi

w^i=(ν+1)σ2νσ2+(yiμ)2

así que simplemente repite los dos pasos anteriores, reemplazando el "lado derecho" de cada ecuación con las estimaciones de los parámetros actuales.

Esto muestra muy fácilmente las propiedades de robustez de la distribución t, ya que las observaciones con grandes residuos reciben menos peso en el cálculo de la ubicación , y la influencia limitada en el cálculo de σ 2 . Por "influencia acotada" quiero decir que la contribución a la estimación para σ 2 de la i-ésima observación no puede exceder un umbral dado (esto es ( ν + 1 ) σ 2 o l d en el algoritmo EM). También ν es un parámetro de "robustez" en el sentido de que aumentar (disminuir) ν dará como resultado más (menos) pesos uniformes y, por lo tanto, más (menos) sensibilidad a los valores atípicos.μσ2σ2(ν+1)σold2νν

Una cosa a tener en cuenta es que la función de probabilidad de registro puede tener más de un punto estacionario, por lo que el algoritmo EM puede converger a un modo local en lugar de un modo global. Es probable que los modos locales se encuentren cuando el parámetro de ubicación se inicia demasiado cerca de un valor atípico. Entonces, comenzar en la mediana es una buena manera de evitar esto.

probabilidadislogica
fuente
1
Eso es genial. He estado jugando con la idea de adaptar los estudiantes t usando EM durante un tiempo precisamente por la razón de que parece una mezcla de gaussianos. ¿Tiene una cita / referencia para las ecuaciones de actualización que da? Tener eso aumentaría aún más la genialidad de esta publicación.
Pat
En realidad, creo que encontré uno yo mismo, para un modelo mixto de t de Student (que voy a usar para cosas): las mezclas de distribuciones t de Student como un marco robusto para el registro rígido. Demetrios Gerogiannis, Christophoros Nikou, Aristidis Likas. Image and Vision Computing 27 (2009) 1285-1294.
Pat
El enlace en mi respuesta a esta pregunta tiene un marco EM muy general para cargas y cargas de funciones de probabilidad: cuantil, estudiante, logística y regresión general. Su caso específico es "regresión" sin covariables, solo intercepción, por lo que encaja perfectamente en este marco. Además, hay una gran cantidad de términos de penalización que puede incorporar a este marco.
probabilityislogic
ν
Creo que esta referencia es mejor que la de @ Pat. 'ESTIMACIÓN ML DE LA DISTRIBUCIÓN t UTILIZANDO EM Y SUS EXTENSIONES, ECM Y ECME'. Debe tener mucho cuidado al seleccionar el valor del parámetro inicial mientras ejecuta el algoritmo EM debido al problema óptimo local. En otras palabras, debe saber algo sobre sus datos. Por lo general, evito el uso de la distribución t en mi investigación.
4

El siguiente documento aborda exactamente el problema que publicó.

Liu C. y Rubin DB 1995. "Estimación ML de la distribución t usando EM y sus extensiones, ECM y ECME". Statistica Sinica 5: 19–39.

Proporciona una estimación general de parámetros de distribución t multivariada, con o sin el conocimiento del grado de libertad. El procedimiento se puede encontrar en la Sección 4, y es muy similar a la probabilidad de lógica para 1 dimensión.

mitchshih
fuente
77
Parece que el documento al que se refiere contiene una respuesta útil a la pregunta, pero las respuestas son mejores cuando son independientes y no requieren recursos externos (aquí, por ejemplo, es posible que OP o los lectores no tengan acceso a este documento ) ¿Podrías desarrollar tu respuesta un poco para que sea más independiente?
Patrick Coulombe el
3

Γ(ν+12)νπΓ(ν2)(1+t2ν)-ν+12=Γ(ν+12)νπΓ(ν2)exp{[En(1+t2ν)][-ν+12]}
νnortenorteν
Lucozade
fuente
1
Incluso en la configuración gaussiana, la probabilidad de registro no es lineal en sus parámetros :-).
whuber
En realidad, estoy interesado en los parámetros de ubicación y escala, más que en los grados de libertad. Consulte editar la pregunta y disculpe por no ser preciso.
Grzenio
2

Recientemente descubrí un estimador de forma cerrada para la escala de la distribución t de Student. Que yo sepa, esta es una nueva contribución, pero agradecería cualquier comentario que sugiera resultados relacionados. El artículo describe el método en el contexto de una familia de distribuciones "exponenciales acopladas". La t de Student se conoce como la gaussiana acoplada, donde el término de acoplamiento es el recíproco del grado de libertad. La estadística de forma cerrada es la media geométrica de las muestras. Suponiendo un valor del acoplamiento o grado de libertad, una estimación de la escala se determina multiplicando la media geométrica de las muestras por una función que involucra el acoplamiento y un número armónico.

https://arxiv.org/abs/1804.03989 Uso de la media geométrica como estadística para la escala de las distribuciones gaussianas acopladas, Kenric P. Nelson, Mark A. Kon, Sabir R. Umarov

Kenric
fuente