Considere los siguientes tres fenómenos.
Paradoja de Stein: dados algunos datos de la distribución normal multivariada en , la media muestral no es un muy buen estimador de la media real. Se puede obtener una estimación con un error cuadrático medio menor si se reducen todas las coordenadas de la media muestral hacia cero [o hacia su media, o en realidad hacia cualquier valor, si entiendo correctamente].
NB: por lo general, la paradoja de Stein se formula considerando solo un único punto de datos de ; corríjame si esto es crucial y mi formulación anterior no es correcta.
Regresión de cresta: dada alguna variable dependiente algunas variables independientes , la regresión estándar tiende sobreajustar los datos y conducir a un bajo rendimiento fuera de la muestra. A menudo se puede reducir el sobreajuste reduciendo hacia cero: .
Efectos aleatorios en modelos multinivel / mixtos: dada alguna variable dependiente (por ejemplo, la altura del estudiante) que depende de algunos predictores categóricos (por ejemplo, identificación de la escuela y género del estudiante), a menudo se recomienda tratar algunos predictores como 'aleatorios', es decir, suponer que La altura media del alumno en cada escuela proviene de una distribución normal subyacente. Esto da como resultado una reducción de las estimaciones de la altura media por escuela hacia la media global.
Tengo la sensación de que todo esto son varios aspectos del mismo fenómeno de "contracción", pero no estoy seguro y ciertamente carecen de una buena intuición al respecto. Entonces, mi pregunta principal es: ¿existe realmente una profunda similitud entre estas tres cosas, o es solo una apariencia superficial? ¿Cuál es el tema común aquí? ¿Cuál es la intuición correcta al respecto?
Además, aquí hay algunas piezas de este rompecabezas que realmente no encajan para mí:
En la regresión de cresta, no se reduce uniformemente; la contracción de la cresta se relaciona realmente con la descomposición de valores singulares de , y las direcciones de baja varianza se reducen más (ver, por ejemplo, Los elementos del aprendizaje estadístico 3.4.1). Pero el estimador James-Stein simplemente toma la media de la muestra y la multiplica por un factor de escala. ¿Cómo encaja eso?
Actualización: vea el Estimador James-Stein con variaciones desiguales y, por ejemplo, aquí con respecto a las variaciones de los coeficientes .
La media de la muestra es óptima en las dimensiones inferiores a 3. ¿Significa que cuando solo hay uno o dos predictores en el modelo de regresión, la regresión de cresta siempre será peor que los mínimos cuadrados ordinarios? En realidad, ahora que lo pienso, no puedo imaginar una situación en 1D (es decir, regresión simple, no múltiple) donde la contracción de la cresta sería beneficiosa ...
Actualización: No. Vea ¿ En qué condiciones es la regresión de cresta capaz de proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios?
Por otro lado, la media muestral siempre es subóptima en dimensiones superiores a 3. ¿Significa que con más de 3 predictores la regresión de cresta siempre es mejor que la MCO, incluso si todos los predictores no están correlacionados (ortogonales)? Por lo general, la regresión de cresta está motivada por la multicolinealidad y la necesidad de "estabilizar" el término .
Actualización: ¡Sí! Ver el mismo hilo que el anterior.
A menudo hay una discusión acalorada sobre si varios factores en ANOVA deben incluirse como efectos fijos o aleatorios. ¿No deberíamos, por la misma lógica, tratar siempre un factor como aleatorio si tiene más de dos niveles (o si hay más de dos factores? Ahora estoy confundido)?
Actualización: ?
Actualización: obtuve algunas respuestas excelentes, pero ninguna proporciona una imagen general suficiente, por lo que dejaré que la pregunta se "abra". Puedo prometer otorgar una recompensa de al menos 100 puntos a una nueva respuesta que superará las existentes. Principalmente busco una visión unificadora que pueda explicar cómo se manifiesta el fenómeno general de la contracción en estos diversos contextos y señalar las principales diferencias entre ellos.
fuente
Respuestas:
Conexión entre el estimador James-Stein y la regresión de cresta
Sea un vector de observación de de longitud , , el estimador de James-Stein es, En términos de regresión de cresta, podemos estimar través de donde la solución es Es fácil ver que los dos estimadores están en la misma forma, pero necesitamos estimary θ m y∼N(θ,σ2I)
Conexión entre el estimador James-Stein y los modelos de efectos aleatorios
Analicemos primero los modelos de efectos mixtos / aleatorios en genética. El modelo es Si no hay efectos fijos y , el modelo se convierte en que es equivalente a la configuración del estimador James-Stein, con algunos Idea bayesiana.
Conexión entre modelos de efectos aleatorios y regresión de crestas
Si nos centramos en los modelos de efectos aleatorios anteriores, La estimación es equivalente a resolver el problema cuando . La prueba se puede encontrar en el Capítulo 3 de Reconocimiento de patrones y aprendizaje automático .
Conexión entre modelos de efectos aleatorios (multinivel) y en genética
En el modelo de efectos aleatorios anterior, la dimensión de es y la de es . Si vectorizamos como y repetimos correspondientemente, entonces tenemos la estructura jerárquica / agrupada, los grupos y cada uno con unidades. Si regresamos en repetido , entonces podemos obtener el efecto aleatorio de en para cada grupo, aunque es algo así como una regresión inversa.y m×1, Z m×p Z (mp)×1, y p m vec(Z) y Z y
Reconocimiento : los primeros tres puntos se aprenden en gran medida de estos dos artículos chinos, 1 , 2 .
fuente
Voy a dejarlo como un ejercicio para que la comunidad desarrolle esta respuesta, pero en general la razón por la cual los estimadores de contracción * dominarán * estimadores imparciales en muestras finitas es porque los estimadores Bayes no pueden ser dominados , y muchos estimadores de contracción pueden derivarse como Bayes.1 2 3 4
Todo esto cae bajo los auspicios de la Teoría de la Decisión. Una referencia exhaustiva, pero poco amistosa, es la "Teoría de la estimación puntual" de Lehmann y Casella. ¿Quizás otros pueden intervenir con referencias más amigables?
y surgen modelos de efectos aleatorios como un procedimiento bayesiano empírico en un marco similar. Estos argumentos se complican por el hecho de que la versión vainilla de los teoremas de admisibilidad bayesianos supone que cada parámetro tiene un previo adecuado. Incluso en la regresión de cresta, eso no es cierto, porque el "previo" se coloca en la varianzafuente
James-Stein supone que la dimensión de respuesta es al menos 3. En la regresión de cresta estándar, la respuesta es unidimensional. Está confundiendo el número de predictores con la dimensión de respuesta.
Dicho esto, veo la similitud entre esas situaciones, pero qué hacer exactamente, por ejemplo, si un factor debe ser fijo o aleatorio, cuánta contracción aplicar, si es que depende, depende del conjunto de datos en particular. Por ejemplo, cuanto más ortogonales son los predictores, menos sentido tiene elegir la regresión de Ridge sobre la regresión estándar. Cuanto mayor sea el número de parámetros, más sentido tiene extraer el previo del conjunto de datos a través de Empirical Bayes y luego usarlo para reducir las estimaciones de los parámetros. Cuanto mayor sea la relación señal / ruido, menores serán los beneficios de la contracción, etc.
fuente
Como otros han dicho, la conexión entre los tres es cómo incorporas la información previa en la medición.
En resumen, la respuesta es que puede reducir la incertidumbre de una medición si sabe qué esperar y clasificar los datos con algunos datos anteriores (la información previa). Estos datos anteriores son los que restringen la función de modelado que usa para ajustar las mediciones. En casos simples, puede escribir su modelo en el marco bayesiano, pero a veces no es práctico, como integrar todas las funciones continuas posibles para encontrar la que tiene el valor Bayesiano Máximo A Posterior.
fuente
Estimador de James Stein y regresión de Ridge
Considerar
Conϵ∼N(0,σ2I)
La solución de mínimos cuadrados es de la forma
James Stein
Por simplicidad de la Jame Stein asumiremos . James y Stein agregarán un previo en el , del formularioS=I β
Y obtendrá un posterior de la forma , luego estimará con y obtendrá un estimador James Stein de la formaaa+σ2β^=(1−σ2a+σ2)β^ 1a+σ2 p−2∥β^∥2
Regresión de cresta
En la regresión de cresta, generalmente está estandarizado (media 0, desviación 1 para cada columna de ) de modo que los parámetros de regresión son comparables. Cuando esto es para .X X β=(β1,β2,…,βp) Sii=1 i=1,2,…,p
Una estimación de regresión de cresta de se define como, , para serβ λ≥0
¿Cómo se derivó ? Recordarβ^(λ)
Entonces tenemos
Igual que la estimación de regresión de cresta . Entonces, la forma original de James Stein dada aquí toma y .β^(λ) S=I a=σ2λ
fuente