Inferencia estadística bajo especificación errónea

14

El tratamiento clásico de la inferencia estadística se basa en el supuesto de que existe una estadística correctamente especificada. Es decir, la distribución P(Y) que generó los datos observados y es parte del modelo estadístico M :

P(Y)M={Pθ(Y):θΘ}
Sin embargo, en la mayoría de las situaciones no podemos Supongamos que esto es realmente cierto. Me pregunto qué sucede con los procedimientos de inferencia estadística si abandonamos la suposición especificada correctamente.

Pθ1=argminPθMKL(P,Pθ)
P

¿Qué les sucede a los estimadores de conjuntos de confianza? Vamos a recapitular estimadores de conjuntos de confianza. Deje que sea ​​un estimador de conjunto, donde es el espacio muestral y 2 ^ \ Theta la potencia establecida sobre el espacio de parámetros \ Theta . Lo que nos gustaría saber es la probabilidad de que los conjuntos producidos por \ delta incluyan la distribución verdadera \ mathbb {P} ^ * , es decir \ mathbb {P} ^ * (\ mathbb {P} ^ * \ en \ {P_ \ theta: \ theta \ in \ delta (Y) \}): = A.δ:ΩY2ΘΩY2ΘΘδP

P(P{Pθ:θδ(Y)}):=A.

Sin embargo, por supuesto, no conocemos la verdadera distribución P . La suposición especificada correctamente nos dice que PM . Sin embargo, todavía no sabemos qué distribución del modelo es. Pero,

infθΘPθ(θδ(Y)):=B
es un límite inferior para la probabilidad A . La ecuación B es la definición clásica del nivel de confianza para un estimador de conjunto de confianza.

Si descartamos la suposición especificada correctamente, B ya no es necesariamente un límite inferior para A , el término que realmente nos interesa. De hecho, si suponemos que el modelo está mal especificado, lo cual podría decirse que es el caso para la mayoría de las situaciones realistas, A es 0, porque la distribución verdadera P no está contenida dentro del modelo estadístico M .

Desde otra perspectiva, uno podría pensar en qué se relaciona B cuando el modelo está mal especificado. Esta es una pregunta más específica. ¿ B todavía tiene un significado si el modelo está mal especificado? Si no, ¿por qué nos molestamos con las estadísticas paramétricas?

Supongo que White 1982 contiene algunos resultados sobre estos temas. Desafortunadamente, mi falta de conocimientos matemáticos me impide comprender mucho de lo que está escrito allí.

Julian Karls
fuente
1
Encontré esta pregunta + respuesta stats.stackexchange.com/questions/149773/… . Es muy similar Leer estos libros probablemente conduciría a una respuesta a esta pregunta. Sin embargo, sigo pensando que un resumen de alguien que ya haya hecho esto sería muy útil.
Julian Karls
2
Es una pena que esta pregunta no haya generado más interés: el enlace de Julian tiene un buen material, pero me interesaría escuchar más ideas al respecto.
Florian Hartig
1
Bueno, generalmente lo que se hace es que la distribución de la estadística de prueba se calcula bajo la hipótesis nula, suponiendo que el modelo estadístico es correcto. Si el valor p es lo suficientemente bajo, se concluye que esto se debe al azar o que el valor nulo es falso. Sin embargo, si el modelo está mal especificado, entonces esta también es una conclusión que lógicamente podría extraerse. Lo mismo se aplica a todas las demás inferencias: el hecho de que el modelo esté mal especificado proporciona una conclusión alternativa. Así es como lo pienso basado en haber leído el trabajo de Spanos.
Toby
Esencialmente, todos los modelos están equivocados. Ayuda a desarrollar la especificación errónea cuantitativamente. Para una imagen, la especificación incorrecta es un registro incorrecto. Por ejemplo, para el error de conteo (p. Ej., De la desintegración radiactiva) para un número suficiente de conteos, el error se distribuye por Poisson. En ese caso, el registro incorrecto de una serie temporal es el error del eje y de la raíz cuadrada de la imagen, y el ruido está en esas mismas unidades. Ejemplo aquí .
Carl

Respuestas:

2

Sean y1,,yn los datos observados que se supone que son una realización de una secuencia de iid variables aleatorias Y1,,Yn con función de densidad de probabilidad común pe definida con respecto a una medida sigma-finita ν . La densidad pe se denomina densidad del Proceso de generación de datos (DGP).

En el modelo de probabilidad del investigador M{p(y;θ):θΘ} es una colección de funciones de densidad de probabilidad que están indexadas por un vector de parámetros θ . Suponga que cada densidad en M está definida con respecto a una medida sigma-finita común ν (por ejemplo, cada densidad podría ser una función de masa de probabilidad con el mismo espacio muestral S ).

Es importante mantener la densidad pe que realmente generó los datos conceptualmente distintos del modelo de probabilidad de los datos. En los tratamientos estadísticos clásicos, una cuidadosa separación de estos conceptos se ignora, no se realiza, o se supone desde el principio que el modelo de probabilidad está correctamente especificado.

Un modelo M correctamente especificado con respecto a pe se define como un modelo donde peM ν casi en todas partes. Cuando M está mal especificado con respecto a pe esto corresponde al caso en el que el modelo de probabilidad no está correctamente especificado.

Si el modelo de probabilidad se especifica correctamente, entonces existe un θ en el espacio de parámetros Θ tal que pe(y)=p(y;θ) ν -casi en todas partes. Tal vector de parámetro se llama el "vector de parámetro verdadero". Si el modelo de probabilidad está mal especificado, entonces el vector de parámetro verdadero no existe.

En el marco errores de modelo de White el objetivo es encontrar la estimación del parámetro θ n que minimiza n ( θ ) ( 1 / n ) Σ n i = 1 log P ( Y i ; θ ) sobre algunos compacto espacio de parámetros Θ . Se supone que un minimizador global estricto único, , del valor esperado de en se encuentra en el interior deθ^n^n(θ)(1/n)i=1nlogp(yi;θ)Θθ^nΘΘ. En el caso de suerte donde el modelo de probabilidad se especifica correctamente, θ puede interpretarse como el "valor del parámetro verdadero".

En el caso especial donde se especifica correctamente el modelo de probabilidad, a continuación, θ n es la estimación de máxima verosimilitud familiar. Si no es así que sabemos tener conocimiento absoluto de que el modelo de probabilidad se especifica correctamente, entonces θ n se llama una estimación de probabilidad cuasi-máxima y el objetivo es estimar θ * . Si tenemos suerte y el modelo de probabilidad se especifica correctamente, entonces la estimación de probabilidad cuasi máxima se reduce como un caso especial a la estimación de máxima probabilidad familiar y θ ∗ se convierte en el verdadero valor del parámetro.θ^nθ^nθθ

La consistencia dentro del marco de White (1982) corresponde a la convergencia a θ sin requerir que θ sea ​​necesariamente el verdadero vector de parámetro. Dentro del marco de White, nunca estimaríamos la probabilidad del evento de que los conjuntos producidos por δ incluyan la distribución VERDADERA P *. En cambio, siempre estimaríamos la distribución de probabilidad P **, que es la probabilidad del evento de que los conjuntos producidos por δ incluyan la distribución especificada por la densidad p(y;θ) .

Finalmente, algunos comentarios sobre la especificación incorrecta del modelo. Es fácil encontrar ejemplos donde un modelo mal especificado es extremadamente útil y muy predictivo. Por ejemplo, considere un modelo de regresión no lineal (o incluso lineal) con un término de error residual gaussiano cuya varianza es extremadamente pequeña, pero el error residual real en el entorno no es gaussiano.

También es fácil encontrar ejemplos en los que un modelo especificado correctamente no sea útil y no sea predictivo. Por ejemplo, considere un modelo de caminata aleatoria para predecir los precios de las acciones que predice el precio de cierre de mañana es una suma ponderada del precio de cierre de hoy y algo de ruido gaussiano con una variación extremadamente grande.

El propósito del marco de especificación errónea del modelo no es garantizar la validez del modelo, sino más bien garantizar la confiabilidad. Es decir, asegúrese de que el error de muestreo asociado con las estimaciones de sus parámetros, los intervalos de confianza, las pruebas de hipótesis, etc., se estimen correctamente a pesar de la presencia de una pequeña o gran cantidad de especificación errónea del modelo. Las estimaciones de probabilidad cuasi máxima son asintóticamente normales centradas en θ con un estimador de matriz de covarianza que depende tanto de la primera como de la segunda derivada de la función de probabilidad logarítmica negativa. En el caso especial en el que tiene suerte y el modelo es correcto, todas las fórmulas se reducen al marco estadístico clásico familiar donde el objetivo es estimar los valores de los parámetros "verdaderos".

RMG
fuente
3

En primer lugar, permítanme decir que esta es una pregunta realmente fascinante; felicitaciones a Julian por publicarlo. Tal como lo veo, el problema fundamental que enfrenta en este tipo de análisis es que cualquier inferencia de cualquier subconjunto de es una inferencia sobre la clase restringida de medidas de probabilidad en el modelo M , por lo que cuando comienza a preguntar acerca de las probabilidades de inferir el verdadero modelo, bajo el modelo, esto degenera en una pregunta trivial de si hay o no una especificación errónea para empezar. White evita esto al observar qué tan cerca se acerca el modelo a la verdadera medida de probabilidad, utilizando una métrica de distancia apropiada. Esto lo lleva a la medida de probabilidad P θ 1 , que es el proxy más cercano para P enΘMPθ1P . Este método de mirar P θ 1 puede extenderse para proporcionar cantidades interesantes relacionadas con su pregunta sobre los conjuntos de confianza.MPθ1

Antes de llegar a esto, vale la pena señalar que los valores y B están matemáticamente bien definidos en su análisis (es decir, existen), y todavía tienen un significado; simplemente no es necesariamente un significado muy útil. El valor A en su análisis está bien definido; Es la probabilidad real de que el conjunto inferido de medidas de probabilidad incluya la medida de probabilidad verdadera. Tiene razón en que PM implica A = 0 , lo que significa que esta cantidad es trivial en el caso de una especificación errónea. Siguiendo el ejemplo de White, quizás sea más interesante observar la cantidad:ABAPMA=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

Aquí hemos reemplazado la ocurrencia interior de con su proxy de más cercana en el modelo M , de modo que la cantidad ya no se vuelve trivial cuando P *M . Ahora estamos pidiendo la probabilidad real de que el conjunto inferido de medidas de probabilidad incluya el proxy más cercano para la medida de probabilidad verdadera en el modelo. La especificación incorrecta del modelo ya no trivializa esta cantidad, ya que tenemos P θ 1M por construcción.PMPMPθ1M

Pθ1δAn. Si puede establecer un límite inferior (positivo) o un resultado de convergencia (positivo), esto le da cierto valor para garantizar que, incluso si hay una especificación errónea, todavía estima correctamente el proxy más cercano con algún nivel de probabilidad. Le recomendaría que explore esos problemas, siguiendo el tipo de análisis realizado por White.

Reinstalar a Mónica
fuente