Visión unificada sobre la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en modelos mixtos?

65

Considere los siguientes tres fenómenos.

  1. Paradoja de Stein: dados algunos datos de la distribución normal multivariada en , la media muestral no es un muy buen estimador de la media real. Se puede obtener una estimación con un error cuadrático medio menor si se reducen todas las coordenadas de la media muestral hacia cero [o hacia su media, o en realidad hacia cualquier valor, si entiendo correctamente].Rn,n3

    NB: por lo general, la paradoja de Stein se formula considerando solo un único punto de datos de ; corríjame si esto es crucial y mi formulación anterior no es correcta.Rn

  2. Regresión de cresta: dada alguna variable dependiente algunas variables independientes , la regresión estándar tiende sobreajustar los datos y conducir a un bajo rendimiento fuera de la muestra. A menudo se puede reducir el sobreajuste reduciendo hacia cero: .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. Efectos aleatorios en modelos multinivel / mixtos: dada alguna variable dependiente (por ejemplo, la altura del estudiante) que depende de algunos predictores categóricos (por ejemplo, identificación de la escuela y género del estudiante), a menudo se recomienda tratar algunos predictores como 'aleatorios', es decir, suponer que La altura media del alumno en cada escuela proviene de una distribución normal subyacente. Esto da como resultado una reducción de las estimaciones de la altura media por escuela hacia la media global.y

Tengo la sensación de que todo esto son varios aspectos del mismo fenómeno de "contracción", pero no estoy seguro y ciertamente carecen de una buena intuición al respecto. Entonces, mi pregunta principal es: ¿existe realmente una profunda similitud entre estas tres cosas, o es solo una apariencia superficial? ¿Cuál es el tema común aquí? ¿Cuál es la intuición correcta al respecto?

Además, aquí hay algunas piezas de este rompecabezas que realmente no encajan para mí:

  • En la regresión de cresta, no se reduce uniformemente; la contracción de la cresta se relaciona realmente con la descomposición de valores singulares de , y las direcciones de baja varianza se reducen más (ver, por ejemplo, Los elementos del aprendizaje estadístico 3.4.1). Pero el estimador James-Stein simplemente toma la media de la muestra y la multiplica por un factor de escala. ¿Cómo encaja eso?βX

    Actualización: vea el Estimador James-Stein con variaciones desiguales y, por ejemplo, aquí con respecto a las variaciones de los coeficientes .β

  • La media de la muestra es óptima en las dimensiones inferiores a 3. ¿Significa que cuando solo hay uno o dos predictores en el modelo de regresión, la regresión de cresta siempre será peor que los mínimos cuadrados ordinarios? En realidad, ahora que lo pienso, no puedo imaginar una situación en 1D (es decir, regresión simple, no múltiple) donde la contracción de la cresta sería beneficiosa ...

    Actualización: No. Vea ¿ En qué condiciones es la regresión de cresta capaz de proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios?

  • Por otro lado, la media muestral siempre es subóptima en dimensiones superiores a 3. ¿Significa que con más de 3 predictores la regresión de cresta siempre es mejor que la MCO, incluso si todos los predictores no están correlacionados (ortogonales)? Por lo general, la regresión de cresta está motivada por la multicolinealidad y la necesidad de "estabilizar" el término .(XX)1

    Actualización: ¡Sí! Ver el mismo hilo que el anterior.

  • A menudo hay una discusión acalorada sobre si varios factores en ANOVA deben incluirse como efectos fijos o aleatorios. ¿No deberíamos, por la misma lógica, tratar siempre un factor como aleatorio si tiene más de dos niveles (o si hay más de dos factores? Ahora estoy confundido)?

    Actualización: ?


Actualización: obtuve algunas respuestas excelentes, pero ninguna proporciona una imagen general suficiente, por lo que dejaré que la pregunta se "abra". Puedo prometer otorgar una recompensa de al menos 100 puntos a una nueva respuesta que superará las existentes. Principalmente busco una visión unificadora que pueda explicar cómo se manifiesta el fenómeno general de la contracción en estos diversos contextos y señalar las principales diferencias entre ellos.

ameba dice Reinstate Monica
fuente
Entiendo que la regresión de cresta (y sus primos, como el lazo y la red elástica) reducen los coeficientes de las variables correlacionadas compartidas por todas las observaciones en la regresión (por ejemplo, el estado socioeconómico del estudiante y el GPA), mientras que un modelo de efectos aleatorios reduce los coeficientes para niveles o grupos mutuamente excluyentes de observaciones correlacionadas (como el estado socioeconómico del alumno agrupado por identificación de la escuela).
RobertF
3
Creo que el mejor lugar para obtener una respuesta unificadora es mirar la palabra clave BLUP (para el mejor predictor imparcial lineal) esp. en la literatura de cría de animales. Véase, por ejemplo, la encuesta de Robinson en Statistical Science. O el libro de
Xi'an
2
@ Xi'an: Muchas gracias, ya he encontrado el libro de Gruber, y aunque ciertamente discute mucho sobre James-Stein y la regresión de cresta, no encontré inmediatamente ninguna comparación directa de los dos (leer todo el libro es No es una opción para mí en este momento ...). Gracias por el enlace a la encuesta de Robinson, echaré un vistazo; cría de animales ! quien lo hubiera pensado. Por cierto, he visto sus comentarios en hilos relacionados, ¡y supongo que usted podría ser una de las personas que realmente podría proporcionar una respuesta satisfactoria aquí! Esto sería genial; Hasta ahora ninguna respuesta me hace contento.
ameba dice Reinstate Monica
2
@ Xi'an: Bueno, tus útiles comentarios a continuación me hacen perder una respuesta tuya aquí. De todos modos, comencé a leer Robinson y me di cuenta de que "El mejor predictor imparcial lineal" es un estimador sesgado (obviamente, ya que implementa la contracción). Qué linda terminología.
ameba dice Reinstate Monica
44
Son buenos para los nombres en la cría de animales: después de que Casella & George 1992 "Gibbs for kids" tuviera que cambiar su título para ser publicado, Wang & Gianola escribió una introducción "Gibbs for pigs" en 1993 en una reunión de la Asociación Europea para la Producción Animal.
Xi'an

Respuestas:

30

Conexión entre el estimador James-Stein y la regresión de cresta

Sea un vector de observación de de longitud , , el estimador de James-Stein es, En términos de regresión de cresta, podemos estimar través de donde la solución es Es fácil ver que los dos estimadores están en la misma forma, pero necesitamos estimaryθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2 en el estimador James-Stein, y determine en la regresión de cresta mediante validación cruzada.λ

Conexión entre el estimador James-Stein y los modelos de efectos aleatorios

Analicemos primero los modelos de efectos mixtos / aleatorios en genética. El modelo es Si no hay efectos fijos y , el modelo se convierte en que es equivalente a la configuración del estimador James-Stein, con algunos Idea bayesiana.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Conexión entre modelos de efectos aleatorios y regresión de crestas

Si nos centramos en los modelos de efectos aleatorios anteriores, La estimación es equivalente a resolver el problema cuando . La prueba se puede encontrar en el Capítulo 3 de Reconocimiento de patrones y aprendizaje automático .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Conexión entre modelos de efectos aleatorios (multinivel) y en genética

En el modelo de efectos aleatorios anterior, la dimensión de es y la de es . Si vectorizamos como y repetimos correspondientemente, entonces tenemos la estructura jerárquica / agrupada, los grupos y cada uno con unidades. Si regresamos en repetido , entonces podemos obtener el efecto aleatorio de en para cada grupo, aunque es algo así como una regresión inversa.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Reconocimiento : los primeros tres puntos se aprenden en gran medida de estos dos artículos chinos, 1 , 2 .

Randel
fuente
(+1) ¡Muchas gracias! Esto es muy útil, y definitivamente buscaré en el libro de texto de Bishop que conozco bien y que a menudo consultaré. No esperaba encontrar nada en modelos mixtos allí, pero parece que la Sección 3.3 "Regresión lineal bayesiana" se trata de eso, solo usa una terminología diferente. Muy bueno saberlo! Pero, ¿cuál es su opinión sobre mis preguntas de bala?
ameba dice Reinstate Monica
Tienes demasiadas preguntas en una publicación. :) 1) Como respondí anteriormente, el estimador de James-Stein y la regresión de cresta son equivalentes cuando no hay covariables , o solo una matriz de identidad. 2,3,4) como mencionó @James, el número de predictores ( arriba) no es necesariamente igual a la dimensión de respuesta . Xpm
Randel
Por cierto, no puedo ver el promedio / muestra de muestra que se usa en el estimador James-Stein, en realidad toma el estimador y luego lo reduce a . y0
Randel
2
El estimador JS y la regresión de cresta son distintos. Una estimación de regresión de cresta de la ubicación -dimensional de un vector p corresponde a la matriz de diseño , lo que llevaría a la estimación , que falta el término (¡no lineal!) en el denominador del estimador JSpIp(1+λ)1Ipyy2
Andrew M
3
Creo que todo depende de lo que llames estimador de cresta. En el sentido temprano de Hoerl y Kennard (1970), de hecho no hay dependencia de en los datos. En el sentido posterior de la tesis doctoral de Casella (1978), la determinación manual de se reemplaza por una función de la suma residual de cuadrados. λλ
Xi'an
6

Voy a dejarlo como un ejercicio para que la comunidad desarrolle esta respuesta, pero en general la razón por la cual los estimadores de contracción * dominarán * estimadores imparciales en muestras finitas es porque los estimadores Bayes no pueden ser dominados , y muchos estimadores de contracción pueden derivarse como Bayes. 1234

Todo esto cae bajo los auspicios de la Teoría de la Decisión. Una referencia exhaustiva, pero poco amistosa, es la "Teoría de la estimación puntual" de Lehmann y Casella. ¿Quizás otros pueden intervenir con referencias más amigables?


1 Un estimador del parámetro en los datos está dominado por otro estimador si para cada el riesgo (por ejemplo, error cuadrático medio) de es igual o mayor que , y supera a para al menos un . En otras palabras, obtienes un rendimiento igual o mejor para en todas partes del espacio de parámetros.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 Un estimador es Bayes (bajo la pérdida de error al cuadrado de todos modos) si es la expectativa posterior de , dados los datos, bajo algún anterior , por ejemplo, , donde la expectativa se toma con la posterior. Naturalmente, diferentes antecedentes conducen a diferentes riesgos para diferentes subconjuntos de . Un ejemplo de juguete importante es el anterior que pone todos los anteriores masa sobre el punto . Luego puede mostrar que el estimador de Bayes es la función constanteθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, que por supuesto tiene un rendimiento extremadamente bueno en y cerca de , y un rendimiento muy malo en otros lugares. Pero, sin embargo, no se puede dominar, porque solo ese estimador conduce a un riesgo cero en .θ0θ0

3 Una pregunta natural es si algún estimador que no puede ser dominado (llamado admisible , ¿aunque no sería indomable ser más elegante?) Necesita ser Bayes? La respuesta es casi. Ver "teoremas de clase completos".

4 Por ejemplo, la regresión de cresta surge como un procedimiento bayesiano cuando coloca un Normal (0, ) antes en , y surgen modelos de efectos aleatorios como un procedimiento bayesiano empírico en un marco similar . Estos argumentos se complican por el hecho de que la versión vainilla de los teoremas de admisibilidad bayesianos supone que cada parámetro tiene un previo adecuado. Incluso en la regresión de cresta, eso no es cierto, porque el "previo" se coloca en la varianza1/λ2βσ2del término de error es la función constante (medida de Lebesgue), que no es una distribución de probabilidad adecuada (integrable). Sin embargo, se puede demostrar que muchos de estos estimadores de Bayes "parcialmente" son admisibles al demostrar que son el "límite" de una secuencia de estimadores que son Bayes apropiados. Pero las pruebas aquí se vuelven más complicadas y delicadas. Ver "estimadores bayes generalizados".

Andrew M
fuente
1
Muchas gracias, muy interesante (+1). Solo puedo desear que su respuesta fuera más detallada ... Re su nota al pie de página (3): ¿está diciendo que todos los estimadores de Bayes son admisibles / indomables (me gusta la palabra), independientemente del anterior? Pero el estimador James-Stein puede derivarse de Bayes empírico; ¿Por qué es inadmisible entonces? Además, significaría que, por ejemplo, en la regresión de cresta puedo tomar un concentrado previo no alrededor de cero, sino alrededor de algún otro valor: , y seguirá siendo ¿Una estrategia de regularización razonable? βN(β0,1/λ2)
ameba dice Reinstate Monica
2
Por la razón por la cual el estimador James-Stein es inadmisible, puede encontrar la respuesta aquí . También hay una discusión detallada e interesante en Lehmann y Casella (1998), Theory of Point Estimation .
Randel el
@Randel: sí, sé que es inadmisible y he visto ese razonamiento, me pregunto cómo encaja con la declaración de Andrew (dado que lo entendí correctamente) de que todos los estimadores de Bayes son admisibles, ya que James-Stein se puede entender a través de Empirical Bayes ...
ameba dice Reinstate Monica
2
@Amoeba: sí, cualquier estimador de Bayes que sea el posterior bajo cualquier previo adecuado conduce a un estimador admisible. En lo que respecta a Bayes empírico, tales procedimientos no son, de hecho, Bayes de buena fe, porque tener el previo depende de los datos puede conducir a patologías. A veces se puede demostrar que son admisibles, a veces no lo son, por lo general, debe trabajar caso por caso. He editado mi respuesta para que sea un poco más cautelosa en este punto, porque de hecho no sé si los modelos lineales mixtos clásicos son admisibles.
Andrew M
3
Solo necesito señalar que los estimadores Bayes genuinos y raros funcionan raramente como estimadores James-Stein porque no son minimax. Bill Strawderman demostró, por ejemplo (en 1975), que no existe un estimador Bayes apropiado de minimax en dimensiones inferiores a 5 para el problema medio normal habitual que lo estableció todo.
Xi'an
2
  • James-Stein supone que la dimensión de respuesta es al menos 3. En la regresión de cresta estándar, la respuesta es unidimensional. Está confundiendo el número de predictores con la dimensión de respuesta.

  • Dicho esto, veo la similitud entre esas situaciones, pero qué hacer exactamente, por ejemplo, si un factor debe ser fijo o aleatorio, cuánta contracción aplicar, si es que depende, depende del conjunto de datos en particular. Por ejemplo, cuanto más ortogonales son los predictores, menos sentido tiene elegir la regresión de Ridge sobre la regresión estándar. Cuanto mayor sea el número de parámetros, más sentido tiene extraer el previo del conjunto de datos a través de Empirical Bayes y luego usarlo para reducir las estimaciones de los parámetros. Cuanto mayor sea la relación señal / ruido, menores serán los beneficios de la contracción, etc.

James
fuente
Gracias por la respuesta. Con respecto a su primera viñeta: pero lo que se está reduciendo en la regresión de cresta es , que tiene tantas dimensiones como predictores, ¿no? β
ameba dice Reinstate Monica
1
De acuerdo, entonces, en teoría, JS debería funcionar mejor, suponiendo que se haya extendido al caso cuando se estima MSE y la matriz de varianza-covarianza de beta es arbitraria. En ese caso, JS no solo tomará la estimación puntual de beta y la multiplicará por un factor de escala. De manera similar a la regresión de Ridge, los diferentes componentes de beta se reducirán de manera diferente.
James
Muy buen punto sobre la matriz de covarianza de ! Supongo que esto responde (al menos intuitivamente) mi primera viñeta. β
ameba dice Reinstate Monica
2
@James: se puede pensar que los modelos lineales proyectan la muestra (que vive en ) en un subespacio dimensional (las columnas abarcadas por la matriz de diseño). En particular, siempre podríamos proyectarla trivialmente en la identidad, que es lo mismo que usar la media muestral de un vector cuando solo tiene una sola observación. Rnpn
Andrew M
2

Como otros han dicho, la conexión entre los tres es cómo incorporas la información previa en la medición.

  1. En el caso de la paradoja de Stein, sabe que la verdadera correlación entre las variables de entrada debe ser cero (y todas las medidas de correlación posibles, ya que quiere implicar independencia, no solo falta de correlación), por lo tanto, puede construir una variable mejor que la simple muestra media y suprime las diversas medidas de correlación. En el marco bayesiano, puede construir un previo que literalmente disminuya los eventos que conducen a la correlación entre las medias de la muestra y el aumento de los demás.
  2. En caso de regresión de cresta, desea encontrar una buena estimación del valor de expectativa condicional E (y | x). En principio, este es un problema de dimensión infinita y mal definido ya que solo tenemos un número finito de mediciones. Sin embargo, el conocimiento previo es que estamos buscando una función continua que modele los datos. Esto todavía está mal definido, ya que todavía hay infinitas maneras de modelar funciones continuas, pero el conjunto es algo más pequeño. La regresión de cresta es solo una forma simple de ordenar las posibles funciones continuas, probarlas y detenerse en un grado final de libertad. Una interpretación es la imagen de la dimensión VC: durante la regresión de la cresta, verificas qué tan bien un modelo af (x, p1, p2 ...) con un grado de libertad dado describe la incertidumbre inherente a los datos. Prácticamente, mide qué tan bien puede f (x, p1, p2 ... ) y la P empírica (p1, p2 ...) puede reconstruir la distribución completa de P (y | x) y no solo E (y | x). De esta forma, los modelos con demasiado grado de libertad (que generalmente se sobreajustan) se pesan, ya que una media mayor de parámetros después de un cierto grado de libertad dará correlaciones más grandes entre los parámetros y, en consecuencia, P mucho más amplio (f (x, p1, p2. ..)) distribuciones. Otra interpretación es que la función de pérdida original es también un valor de medida, y si la evaluación en una muestra dada viene con una incertidumbre, por lo que la tarea real no es minimizar la función de pérdida, sino encontrar un mínimo que sea significativamente menor que el otros (prácticamente cambiar de un grado de libertad a otro es una decisión bayesiana, por lo que uno cambia el número de parámetros solo si dan una disminución significativa en la función de pérdida). La regresión de cresta se puede interpretar como una aproximación a estas dos imágenes (dimensión CV, pérdida esperada). En algunos casos, desea preferir mayores grados de libertad, por ejemplo, en física de partículas, estudia la colisión de partículas donde espera que el número de partículas producidas sea una distribución de Poisson, por lo que reconstruye la pista de partículas de una imagen (una foto, por ejemplo ) de una manera que prefiere un número determinado de pistas y suprime los modelos que tienen una interpretación de número de pista menor o mayor de la imagen.
  3. El tercer caso también trata de implementar una información previa en la medición, es decir, se sabe a partir de mediciones anteriores que la altura de los estudiantes puede ser modelada muy bien por las distribuciones gaussianas y no por un Cauchy, por ejemplo.

En resumen, la respuesta es que puede reducir la incertidumbre de una medición si sabe qué esperar y clasificar los datos con algunos datos anteriores (la información previa). Estos datos anteriores son los que restringen la función de modelado que usa para ajustar las mediciones. En casos simples, puede escribir su modelo en el marco bayesiano, pero a veces no es práctico, como integrar todas las funciones continuas posibles para encontrar la que tiene el valor Bayesiano Máximo A Posterior.

Peter Kövesárki
fuente
2

Estimador de James Stein y regresión de Ridge

Considerar

y=Xβ+ϵ

Con ϵN(0,σ2I)

La solución de mínimos cuadrados es de la forma

β^=S1Xy , donde .S=XX

β^ es imparcial para y tiene una matriz de covarianza . Por eso podemos escribirβσ2S1

β^N(β,σ2S1) Tenga en cuenta que son las estimaciones de máxima verosimilitud, MLE.β^

James Stein

Por simplicidad de la Jame Stein asumiremos . James y Stein agregarán un previo en el , del formularioS=Iβ

βN(0,aI)

Y obtendrá un posterior de la forma , luego estimará con y obtendrá un estimador James Stein de la formaaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Regresión de cresta

En la regresión de cresta, generalmente está estandarizado (media 0, desviación 1 para cada columna de ) de modo que los parámetros de regresión son comparables. Cuando esto es para .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

Una estimación de regresión de cresta de se define como, , para serβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ tenga en cuenta que es el MLE.β^

¿Cómo se derivó ? Recordarβ^(λ)

β^N(β^,σ2S1) y si agregamos un previo Bayesiano

βN(0,σ2λI)

Entonces tenemos

E(β|β^)=(S+λI)1Sβ^

Igual que la estimación de regresión de cresta . Entonces, la forma original de James Stein dada aquí toma y .β^(λ)S=Ia=σ2λ

Chamberlain Foncha
fuente