¿Qué significa exactamente pedir prestada información?

11

A menudo la gente les habla sobre el préstamo de información o el intercambio de información en modelos jerárquicos bayesianos. Parece que no puedo obtener una respuesta directa sobre lo que esto realmente significa y si es exclusivo de los modelos jerárquicos bayesianos. Tengo una idea: algunos niveles en su jerarquía comparten un parámetro común. Sin embargo, no tengo idea de cómo esto se traduce en "préstamo de información".

  1. ¿Es "préstamo de información" / "intercambio de información" una palabra de moda que a la gente le gusta tirar?

  2. ¿Hay algún ejemplo con forma posterior cerrada que ilustre este fenómeno de compartir?

  3. ¿Es esto exclusivo de un análisis bayesiano? En general, cuando veo ejemplos de "préstamos de información" son solo modelos mixtos. Tal vez aprendí estos modelos a la antigua, pero no veo ningún intercambio.

No estoy interesado en comenzar un debate filosófico sobre los métodos. Tengo curiosidad por el uso de este término.

EliK
fuente
1
Para su pregunta 2., puede encontrar este enlace iluminador: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Isabella Ghement
Me encantaría ver alguna mención de la teoría de la información en las respuestas aquí.
shadowtalker

Respuestas:

10

Este es un término que proviene específicamente de Bayes empírico (EB), de hecho, el concepto al que se refiere no existe en la verdadera inferencia bayesiana. El término original era "fuerza de endeudamiento", que fue acuñado por John Tukey en la década de 1960 y popularizado por Bradley Efron y Carl Morris en una serie de artículos estadísticos sobre la paradoja de Stein y la EB paramétrica en las décadas de 1970 y 1980. Muchas personas ahora usan "préstamo de información" o "intercambio de información" como sinónimos del mismo concepto. La razón por la que puede escucharlo en el contexto de modelos mixtos es que los análisis más comunes para modelos mixtos tienen una interpretación EB.

EB tiene muchas aplicaciones y se aplica a muchos modelos estadísticos, pero el contexto siempre es que tiene una gran cantidad de casos (posiblemente independientes) y está tratando de estimar un parámetro particular (como la media o la varianza) en cada caso. En la inferencia bayesiana, se hacen inferencias posteriores sobre el parámetro basándose tanto en los datos observados para cada caso como en la distribución previa de ese parámetro. En la inferencia EB, la distribución previa para el parámetro se estima a partir de la colección completa de casos de datos, después de lo cual la inferencia continúa como para la inferencia bayesiana. Por lo tanto, cuando estima el parámetro para un caso particular, utiliza los datos para ese caso y también la distribución previa estimada, y este último representa la "información" o "fuerza"

Ahora puede ver por qué EB tiene "endeudamiento" pero Bayes verdadero no. En Bayes verdadero, la distribución previa ya existe y, por lo tanto, no necesita ser rogada o prestada. En EB, la distribución previa se ha creado a partir de los datos observados. Cuando hacemos inferencia sobre un caso particular, usamos toda la información observada de ese caso y un poco de información de cada uno de los otros casos. Decimos que es solo "prestado", porque la información se devuelve cuando pasamos a hacer inferencia sobre el próximo caso.

La idea de EB y "préstamo de información" se utiliza en gran medida en la genómica estadística, cuando cada "caso" suele ser un gen o una característica genómica (Smyth, 2004; Phipson et al, 2016).

Referencias

Efron, Bradley y Carl Morris. La paradoja de Stein en las estadísticas. Scientific American 236, no. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). Modelos lineales y métodos empíricos de Bayes para evaluar la expresión diferencial en experimentos de microarrays. Aplicaciones estadísticas en genética y biología molecular, volumen 3, número 1, artículo 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS y Smyth, GK (2016). La estimación robusta del hiperparámetro protege contra genes hipervariables y mejora el poder para detectar la expresión diferencial. Anales de Estadística Aplicada 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920

Gordon Smyth
fuente
1
No creo que esta interpretación sea correcta. Por ejemplo, los modelos de efectos mixtos toman prestada información, pero pueden analizarse en un contexto bayesiano tradicional
Cliff AB,
1
@CliffAB Si profundiza en los análisis de modelos mixtos, encontrará que el análisis es casi siempre Bayes empírico en lugar de Bayes verdadero. La mayoría de los autores, por supuesto, dirán que están haciendo Bayes cuando en realidad es EB porque la mayoría de los autores no hacen la distinción. Si crees que puedes dar un ejemplo de un verdadero análisis de modelo mixto de Bayes, entonces te invito a que lo hagas.
Gordon Smyth
1
@CliffAB En la minoría de los casos en que se utiliza un verdadero análisis de Bayes para modelos mixtos (por ejemplo, por MCMC o Winbugs), el uso del término "información de préstamo" estaría fuera de lugar. Ciertamente no estaría de acuerdo con lo que Tukey y Efron querían decir con "pedir prestado".
Gordon Smyth
1
@CliffAB Estoy de acuerdo en que brms es un paquete bayesiano, por lo que el término "información de préstamo" no aparece en la documentación de brms.
Gordon Smyth
1
Los modelos bayesianos simples no "toman prestada información", pero los modelos multinivel sí, aunque creo que el término más popular en ese campo es "agrupación parcial". Aquí hay una discusión clásica de esto de A. Gelman. En general, si acepta la idea de que los modelos de efectos mixtos "toman prestada información", no estoy seguro de cómo se puede decir que los efectos mixtos bayesianos no lo hacen; lo anterior aparece en el nivel debajo de la información prestada. Si dice que los modelos de efectos mixtos no toman prestada información, eso explica mi confusión sobre su reclamo.
Cliff AB
5

Considere un problema simple como estimar medios de múltiples grupos. Si su modelo los trata como completamente ajenos, entonces la única información que tiene sobre cada media es la información dentro de ese grupo. Si su modelo trata sus medias como algo relacionado (como en un modelo de tipo de efectos mixtos), las estimaciones serán más precisas porque la información de otros grupos informa (regulariza, reduce a una media común) la estimación para un grupo determinado. Ese es un ejemplo de "información de préstamo".

La noción surge en el trabajo actuarial relacionado con la credibilidad (no necesariamente con ese término específico de "préstamo", aunque el préstamo en ese sentido está explícito en las fórmulas); Esto se remonta a un largo camino, al menos hace un siglo, con claros precursores que se remontan a mediados del siglo XIX. Por ejemplo, ver Longley-Cook, LH (1962) Una introducción a la teoría de credibilidad PCAS, 49, 194-221.

Aquí está Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):

Aquí hay un riesgo, por ejemplo, que claramente debe clasificarse como un taller mecánico. En ausencia de otra información, por lo tanto, debe simular la tasa de taller de máquinas, es decir, la tasa promedio para todos los riesgos de esta clase. Por otro lado, el riesgo ha tenido una experiencia propia. Si el riesgo es grande, esta puede ser una mejor guía para su peligro que la experiencia de clase. En cualquier caso, ya sea que el riesgo sea grande o pequeño, ambos elementos tienen su valor como evidencia, y ambos deben tenerse en cuenta. La dificultad surge del hecho de que, en general, la evidencia es contradictoria; Por lo tanto, el problema es encontrar y aplicar un criterio que le otorgue a cada uno su peso adecuado.

Si bien el término préstamo está ausente aquí, la noción de usar la información a nivel de grupo para informarnos sobre este taller de máquinas está claramente allí. [Las nociones permanecen sin cambios cuando la "solidez del préstamo" y la "información del préstamo" comienzan a aplicarse a esta situación]

Glen_b -Reinstate a Monica
fuente
1
Aprecio el ejemplo, ya que explica claramente lo que hacen los préstamos, pero estoy buscando una definición más precisa.
EliK
¿Una definición precisa de un término impreciso e intuitivo? Supongo que uno podría ser posible - tal vez uno podría definirlo en términos de reducción de la varianza, relacionando los parámetros en todos los grupos, pero se podría muy fácilmente excluir usos posibles de la idea al hacerlo
Glen_b -Reinstate Monica
No estaba claro para mí si la intuición imprecisa tenía o no una definición real.
EliK
3

σR2

σR2σR2

σR2σR2σRσR2. Cuanta menos información haya en los datos, más importante será la información previa. Si aún no lo ha hecho, le sugiero que intente simular modelos de efectos mixtos con solo unos pocos sujetos. Puede que se sorprenda de cuán inestables son las estimaciones de los métodos Frequentistas, especialmente cuando agrega solo uno o dos valores atípicos ... y ¿con qué frecuencia se ven conjuntos de datos reales sin valores atípicos? Creo que este problema está cubierto en Bayesian Data Analysis por Gelman et al, pero lamentablemente no creo que esté disponible públicamente, por lo que no hay hipervínculo.

Finalmente, el modelado multinivel no es solo efectos mixtos, aunque son los más comunes. Cualquier modelo en el que los parámetros estén influenciados no solo por datos anteriores y datos, sino también por otros parámetros desconocidos puede llamarse modelo multinivel. Por supuesto, este es un conjunto de modelos muy flexible, pero puede redactarse desde cero y ajustarse con una cantidad mínima de trabajo utilizando herramientas como Stan, NIMBLE, JAGS, etc. Hasta este punto, no estoy seguro de que diría multinivel modelar es "bombo"; básicamente, puede escribir cualquier modelo que pueda representarse como un Gráfico Acíclico Dirigidoy ajustarlo de inmediato (suponiendo que tenga un tiempo de ejecución razonable, es decir). Esto le da mucho más poder y creatividad potencial que las opciones tradicionales (es decir, paquetes de modelos de regresión) pero no requiere uno para construir un paquete R completo desde cero solo para adaptarse a un nuevo tipo de modelo.

Acantilado
fuente
Gracias por la respuesta. Para aclarar que no estaba sugiriendo que el modelado multinivel es "bombo". Estaba preguntando si "pedir prestado información" tiene un significado preciso o si ese término en particular es solo una exageración.
EliK
@EliK: no estoy seguro de que tenga un significado preciso ; Gordon Smyth da lo que algunos pueden considerar un significado preciso, es decir, Empirical Bayes, pero la forma en que veo ese término comúnmente utilizado ahora no parece encajar en ese significado. Personalmente, no creo que sea solo un término exagerado; es exactamente la motivación para usar modelos de efectos mixtos sobre modelos de efectos fijos, aunque esto se extiende más allá del marco de modelo de regresión estándar. Creo que mucha gente dice el "modelado multinivel" más vago en lugar del "modelado de efectos mixtos" más preciso porque ahora está más de moda.
Cliff AB
Diría que la exageración está en los artículos y blogs de ML, donde se argumenta que necesita modelos bayesianos para implementar modelos multinivel. Me interesaría un ejemplo trabajado, donde uno se compara con el modelo regularizado con validación cruzada (para predicción)
seanv507
Por lo que vale, la única alternativa a Bayesian es Máxima Probabilidad, que es solo Bayesian con un uniforme previo. Entonces eso no está realmente mal.
shadowtalker
1
@shadowtalker: si considera los métodos MLE para Bayesian, entonces la palabra Bayesian básicamente no tiene sentido en las estadísticas. Sin embargo, esto es consistente con algunos de los errores que veo en la literatura de ML.
Cliff AB
2

Supongo que, dado que etiquetó el aprendizaje automático, le interesa la predicción, en lugar de la inferencia (creo que estoy alineado con la respuesta de @Glen_b, pero solo traduzco a este contexto / vocabulario)

Yo diría que en este caso es una palabra de moda. Un modelo lineal regularizado con una variable grupal tomará prestada información: la predicción a nivel individual será una combinación de la media grupal y el efecto individual. Una forma de pensar en la regularización l1 / l2 es que está asignando un costo de coeficiente por reducción en el error total, ya que una variable de grupo afecta a más muestras que una variable individual, habrá presión para estimar un efecto de grupo, dejando una desviación menor de efecto grupal a cada variable individual.

Para puntos individuales con suficientes datos, el efecto individual será 'fuerte', para aquellos con pocos datos, el efecto será débil.

Creo que la forma más fácil de ver esto es considerando la regularización L1 y 3 individuos del mismo grupo con el mismo efecto. Sin regularizar, el problema tiene un número infinito de soluciones, mientras que la regularización ofrece una solución única.

Asignar todo el efecto al coeficiente de grupo tiene la norma l1 más baja, ya que solo necesitamos 1 valor para cubrir 3 individuos. Por el contrario, asignar todo el efecto a los coeficientes individuales tiene el peor, es decir, 3 veces la norma l1 de asignar el efecto al coeficiente de grupo.

Tenga en cuenta que podemos tener tantas jerarquías como queramos, y las interacciones se ven afectadas de manera similar: la regularización empujará los efectos a las variables principales, en lugar de las interacciones más raras.

El blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - vinculado por @IsabellaGhement da una cotización de la fuerza de endeudamiento

"Este efecto a veces se denomina contracción, porque la contracción de valores más extremos se lleva a un valor más razonable y más promedio. En el libro lme4 , Douglas Bates ofrece una alternativa a la contracción [nombre]"

El término "contracción" puede tener connotaciones negativas. John Tukey prefirió referirse al proceso como las estimaciones para los sujetos individuales "fuerza de endeudamiento" entre sí. Esta es una diferencia fundamental en los modelos subyacentes a los modelos de efectos mixtos versus los modelos de efectos estrictamente fijos. En un modelo de efectos mixtos suponemos que los niveles de un factor de agrupación son una selección de una población y, como resultado, se puede esperar que compartan características hasta cierto punto. En consecuencia, las predicciones de un modelo de efectos mixtos se atenúan en relación con las de los modelos de efectos estrictamente fijos.

seanv507
fuente
¿Qué es la predicción si no es un tipo específico de inferencia?
shadowtalker
0

Otra fuente que me gustaría recomendar sobre este tema que encuentro particularmente instructiva es la Introducción a Empirical Bayes de David Robinson .

Su ejemplo corriente es si un jugador de béisbol logrará golpear la siguiente pelota que le arrojen. La idea clave es que si un jugador ha existido durante años, uno tiene una idea bastante clara de cuán capaz es y, en particular, puede usar su promedio de bateo observado como una muy buena estimación de la probabilidad de éxito en el próximo lanzamiento.

Por el contrario, un jugador que acaba de comenzar a jugar en una liga aún no ha revelado mucho de su talento real. Por lo tanto, parece una buena elección ajustar la estimación de su probabilidad de éxito hacia una media general si ha sido particularmente exitoso o no exitoso en sus primeros juegos, ya que es probable, al menos en cierta medida, debido a la buena o mala suerte. .

Como un punto menor, el término "pedir prestado" ciertamente no parece usarse en el sentido de que algo que ha sido prestado necesitaría ser devuelto en algún momento ;-).

Christoph Hanck
fuente