El tratamiento clásico de la inferencia estadística se basa en el supuesto de que existe una estadística correctamente especificada. Es decir, la distribución que generó los datos observados es parte del modelo estadístico :
¿Qué les sucede a los estimadores de conjuntos de confianza? Vamos a recapitular estimadores de conjuntos de confianza. Deje que sea un estimador de conjunto, donde es el espacio muestral y 2 ^ \ Theta la potencia establecida sobre el espacio de parámetros \ Theta . Lo que nos gustaría saber es la probabilidad de que los conjuntos producidos por \ delta incluyan la distribución verdadera \ mathbb {P} ^ * , es decir \ mathbb {P} ^ * (\ mathbb {P} ^ * \ en \ {P_ \ theta: \ theta \ in \ delta (Y) \}): = A.
Sin embargo, por supuesto, no conocemos la verdadera distribución . La suposición especificada correctamente nos dice que . Sin embargo, todavía no sabemos qué distribución del modelo es. Pero,
Si descartamos la suposición especificada correctamente, ya no es necesariamente un límite inferior para , el término que realmente nos interesa. De hecho, si suponemos que el modelo está mal especificado, lo cual podría decirse que es el caso para la mayoría de las situaciones realistas, es 0, porque la distribución verdadera no está contenida dentro del modelo estadístico .
Desde otra perspectiva, uno podría pensar en qué se relaciona cuando el modelo está mal especificado. Esta es una pregunta más específica. ¿ todavía tiene un significado si el modelo está mal especificado? Si no, ¿por qué nos molestamos con las estadísticas paramétricas?
Supongo que White 1982 contiene algunos resultados sobre estos temas. Desafortunadamente, mi falta de conocimientos matemáticos me impide comprender mucho de lo que está escrito allí.
Respuestas:
Seany1,…,yn los datos observados que se supone que son una realización de una secuencia de iid variables aleatorias Y1,…,Yn con función de densidad de probabilidad común pe definida con respecto a una medida sigma-finita ν . La densidad pe se denomina densidad del Proceso de generación de datos (DGP).
En el modelo de probabilidad del investigadorM≡{p(y;θ):θ∈Θ} es una colección de funciones de densidad de probabilidad que están indexadas por un vector de parámetros
θ . Suponga que cada densidad en M está definida con respecto a una medida sigma-finita común ν (por ejemplo, cada densidad podría ser una función de masa de probabilidad con el mismo espacio muestral S ).
Es importante mantener la densidadpe que realmente generó los datos conceptualmente distintos del modelo de probabilidad de los datos. En los tratamientos estadísticos clásicos, una cuidadosa separación de estos conceptos se ignora, no se realiza, o se supone desde el principio que el modelo de probabilidad está correctamente especificado.
Un modeloM correctamente especificado con respecto a pe se define como un modelo donde pe∈M ν casi en todas partes. Cuando
M está mal especificado con respecto a pe esto corresponde al caso en el que el modelo de probabilidad no está correctamente especificado.
Si el modelo de probabilidad se especifica correctamente, entonces existe unθ∗ en el espacio de parámetros Θ tal que
pe(y)=p(y;θ∗) ν -casi en todas partes. Tal vector de parámetro se llama el "vector de parámetro verdadero". Si el modelo de probabilidad está mal especificado, entonces el vector de parámetro verdadero no existe.
En el marco errores de modelo de White el objetivo es encontrar la estimación del parámetro θ n que minimiza ℓ n ( θ ) ≡ ( 1 / n ) Σ n i = 1 log P ( Y i ; θ ) sobre algunos compacto espacio de parámetros Θ . Se supone que un minimizador global estricto único, , del valor esperado de en se encuentra en el interior deθ^n ℓ^n(θ)≡(1/n)∑ni=1logp(yi;θ) Θ θ∗ ℓ^n Θ Θ . En el caso de suerte donde el modelo de probabilidad se especifica correctamente, θ∗ puede interpretarse como el "valor del parámetro verdadero".
En el caso especial donde se especifica correctamente el modelo de probabilidad, a continuación, θ n es la estimación de máxima verosimilitud familiar. Si no es así que sabemos tener conocimiento absoluto de que el modelo de probabilidad se especifica correctamente, entonces θ n se llama una estimación de probabilidad cuasi-máxima y el objetivo es estimar θ * . Si tenemos suerte y el modelo de probabilidad se especifica correctamente, entonces la estimación de probabilidad cuasi máxima se reduce como un caso especial a la estimación de máxima probabilidad familiar y θ ∗ se convierte en el verdadero valor del parámetro.θ^n θ^n θ∗ θ∗
La consistencia dentro del marco de White (1982) corresponde a la convergencia aθ∗ sin requerir que θ∗ sea necesariamente el verdadero vector de parámetro. Dentro del marco de White, nunca estimaríamos la probabilidad del evento de que los conjuntos producidos por δ incluyan la distribución VERDADERA P *. En cambio, siempre estimaríamos la distribución de probabilidad P **, que es la probabilidad del evento de que los conjuntos producidos por δ incluyan la distribución especificada por la densidad
p(y;θ∗) .
Finalmente, algunos comentarios sobre la especificación incorrecta del modelo. Es fácil encontrar ejemplos donde un modelo mal especificado es extremadamente útil y muy predictivo. Por ejemplo, considere un modelo de regresión no lineal (o incluso lineal) con un término de error residual gaussiano cuya varianza es extremadamente pequeña, pero el error residual real en el entorno no es gaussiano.
También es fácil encontrar ejemplos en los que un modelo especificado correctamente no sea útil y no sea predictivo. Por ejemplo, considere un modelo de caminata aleatoria para predecir los precios de las acciones que predice el precio de cierre de mañana es una suma ponderada del precio de cierre de hoy y algo de ruido gaussiano con una variación extremadamente grande.
El propósito del marco de especificación errónea del modelo no es garantizar la validez del modelo, sino más bien garantizar la confiabilidad. Es decir, asegúrese de que el error de muestreo asociado con las estimaciones de sus parámetros, los intervalos de confianza, las pruebas de hipótesis, etc., se estimen correctamente a pesar de la presencia de una pequeña o gran cantidad de especificación errónea del modelo. Las estimaciones de probabilidad cuasi máxima son asintóticamente normales centradas enθ∗ con un estimador de matriz de covarianza que depende tanto de la primera como de la segunda derivada de la función de probabilidad logarítmica negativa. En el caso especial en el que tiene suerte y el modelo es correcto, todas las fórmulas se reducen al marco estadístico clásico familiar donde el objetivo es estimar los valores de los parámetros "verdaderos".
fuente
En primer lugar, permítanme decir que esta es una pregunta realmente fascinante; felicitaciones a Julian por publicarlo. Tal como lo veo, el problema fundamental que enfrenta en este tipo de análisis es que cualquier inferencia de cualquier subconjunto de es una inferencia sobre la clase restringida de medidas de probabilidad en el modelo M , por lo que cuando comienza a preguntar acerca de las probabilidades de inferir el verdadero modelo, bajo el modelo, esto degenera en una pregunta trivial de si hay o no una especificación errónea para empezar. White evita esto al observar qué tan cerca se acerca el modelo a la verdadera medida de probabilidad, utilizando una métrica de distancia apropiada. Esto lo lleva a la medida de probabilidad P θ 1 , que es el proxy más cercano para P ∗ enΘ M Pθ1 P∗ . Este método de mirar P θ 1 puede extenderse para proporcionar cantidades interesantes relacionadas con su pregunta sobre los conjuntos de confianza.M Pθ1
Antes de llegar a esto, vale la pena señalar que los valores y B están matemáticamente bien definidos en su análisis (es decir, existen), y todavía tienen un significado; simplemente no es necesariamente un significado muy útil. El valor A en su análisis está bien definido; Es la probabilidad real de que el conjunto inferido de medidas de probabilidad incluya la medida de probabilidad verdadera. Tiene razón en que P ∗ ∉ M implica A = 0 , lo que significa que esta cantidad es trivial en el caso de una especificación errónea. Siguiendo el ejemplo de White, quizás sea más interesante observar la cantidad:A B A P∗∉M A=0
Aquí hemos reemplazado la ocurrencia interior de con su proxy de más cercana en el modelo M , de modo que la cantidad ya no se vuelve trivial cuando P * ∉ M . Ahora estamos pidiendo la probabilidad real de que el conjunto inferido de medidas de probabilidad incluya el proxy más cercano para la medida de probabilidad verdadera en el modelo. La especificación incorrecta del modelo ya no trivializa esta cantidad, ya que tenemos P θ 1 ∈ M por construcción.P∗ M P∗∉M Pθ1∈M
fuente