¿Cómo encaja un estimador que minimiza una suma ponderada de sesgo cuadrado y varianza en la teoría de la decisión?

10

De acuerdo, mi mensaje original no pudo obtener una respuesta; entonces, déjenme plantear la pregunta de otra manera. Comenzaré explicando mi comprensión de la estimación desde una perspectiva teórica de decisión. No tengo entrenamiento formal y no me sorprendería si mi pensamiento es defectuoso de alguna manera.

Supongamos que tenemos una función de pérdida L(θ,θ^(X)) . La pérdida esperada es el riesgo (frecuente):

R(θ,θ^(X))=L(θ,θ^(X))L(θ,θ^(X))reX,

donde es la probabilidad; y el riesgo de Bayes es el riesgo frecuentista esperado:L(θ,θ^(X))

r(θ,θ^(X))=R(θ,θ^(X))π(θ)reXreθ,

donde es nuestro previo.π(θ)

En general, nos encontramos con el θ ( x ) que minimizan r y todo esto funciona muy bien; Por otra parte el teorema de Fubini se aplica y se puede invertir el orden de integración de manera que cualquier dada θ ( x ) que minimiza r es independiente de todos los demás. De esta manera, no se viola el principio de probabilidad y podemos sentirnos bien por ser bayesianos, etc.θ^(x)rθ^(X)r

Por ejemplo, dada la pérdida error al cuadrado familiar, nuestro riesgo frequentist es el error cuadrático medio o la suma de sesgo al cuadrado y la varianza y nuestra El riesgo de Bayes es la suma esperada de sesgo cuadrado y varianza dada nuestra anterior, es decir, la pérdida esperada a posteriori.L(θ,θ^(X))=(θ-θ^(X))2,

Esto me parece sensato hasta ahora (aunque podría estar bastante equivocado); pero, en cualquier caso, las cosas tienen mucho menos sentido para otros objetivos. Por ejemplo, supongamos que en vez de minimizar la suma de igual-ponderada sesgo al cuadrado y la varianza, quiero minimizar una desigual-ponderada suma - que es, quiero que el θ ( x ) que reducen al mínimo:θ^(X)

(mi[θ^(X)]-θ)2+kmi[(θ^(X)-mi[θ^(X)])2],

donde es alguna constante real positiva (que no sea 1).k

Normalmente me refiero a una suma como esta como una "función objetivo", aunque puede ser que esté usando ese término incorrectamente. Mi pregunta no es acerca de cómo encontrar una solución - la búsqueda de la θ ( x ) que minimizan la función objetivo es numéricamente factible - más bien, mi pregunta es doble:θ^(X)

  1. ¿Puede esa función objetiva encajar en el paradigma de la teoría de la decisión? Si no, ¿hay otro marco en el que encaje? Si es así, ¿cómo es eso? Parece que la función de pérdida asociada sería una función de , θθ , y E [ θ ( x ) ] , que - debido a la expectativa - es (creo) no adecuada.θ^(X)mi[θ^(X)]

  2. Una función tan objetivo viola el principio probabilidad porque cualquier estimación dada θ ( x j depende de todas las demás estimaciones de θ ( x i j ) (incluso los hipotéticos). Sin embargo, hay ocasiones en que es deseable intercambiar un aumento en la varianza de error por una reducción en el sesgo. Dado ese objetivo, ¿hay alguna forma de conceptualizar el problema de manera que se ajuste al principio de probabilidad?θ^(Xj)θ^(Xyoj)

Supongo que no he entendido algunos conceptos fundamentales sobre la teoría / estimación / optimización de decisiones. Gracias de antemano por cualquier respuesta y por favor asuma que no sé nada ya que no tengo capacitación en esta área o en matemáticas en general. Además, cualquier referencia sugerida (para el lector ingenuo) es apreciada.

usuario153935
fuente

Respuestas:

2

¡Esta es una pregunta bastante interesante y novedosa! En un nivel formal, usando la función de riesgo frequentist medios utilizando (por ejemplo) la función de pérdida definida como L ( θ , θ [ θ ( X

(miθ[θ^(X)]-θ)2+kmiθ[(θ^(X)-mi[θ^(X)])2],
ya que no hay motivo para prohibir las expectativas como E θ [ θ ( X ) ] para aparecer en una función de pérdida. Que dependen de toda la distribución de
L(θ,θ^)=(miθ[θ^(X)]-θ)2+k(θ^-miθ[θ^(X)])2
miθ[θ^(X)]es una función que puede parecer extraño, pero toda la distribución se establece en función deθ^(X) y la pérdida resultante es por lo tanto una función de θ , θ y la distribución de θ ( X ) .θθθ^θ^(X)

L(θ,δ)θδΘδXXXθ, no pudo ser considerado. El hecho de que pueda violar el principio de probabilidad no es una preocupación directa para la teoría de la decisión y no impide la derivación formal de un estimador de Bayes.

Xi'an
fuente