A menudo la gente les habla sobre el préstamo de información o el intercambio de información en modelos jerárquicos bayesianos. Parece que no puedo obtener una respuesta directa sobre lo que esto realmente significa y si es exclusivo de los modelos jerárquicos bayesianos. Tengo una idea: algunos niveles en su jerarquía comparten un parámetro común. Sin embargo, no tengo idea de cómo esto se traduce en "préstamo de información".
¿Es "préstamo de información" / "intercambio de información" una palabra de moda que a la gente le gusta tirar?
¿Hay algún ejemplo con forma posterior cerrada que ilustre este fenómeno de compartir?
¿Es esto exclusivo de un análisis bayesiano? En general, cuando veo ejemplos de "préstamos de información" son solo modelos mixtos. Tal vez aprendí estos modelos a la antigua, pero no veo ningún intercambio.
No estoy interesado en comenzar un debate filosófico sobre los métodos. Tengo curiosidad por el uso de este término.
Respuestas:
Este es un término que proviene específicamente de Bayes empírico (EB), de hecho, el concepto al que se refiere no existe en la verdadera inferencia bayesiana. El término original era "fuerza de endeudamiento", que fue acuñado por John Tukey en la década de 1960 y popularizado por Bradley Efron y Carl Morris en una serie de artículos estadísticos sobre la paradoja de Stein y la EB paramétrica en las décadas de 1970 y 1980. Muchas personas ahora usan "préstamo de información" o "intercambio de información" como sinónimos del mismo concepto. La razón por la que puede escucharlo en el contexto de modelos mixtos es que los análisis más comunes para modelos mixtos tienen una interpretación EB.
EB tiene muchas aplicaciones y se aplica a muchos modelos estadísticos, pero el contexto siempre es que tiene una gran cantidad de casos (posiblemente independientes) y está tratando de estimar un parámetro particular (como la media o la varianza) en cada caso. En la inferencia bayesiana, se hacen inferencias posteriores sobre el parámetro basándose tanto en los datos observados para cada caso como en la distribución previa de ese parámetro. En la inferencia EB, la distribución previa para el parámetro se estima a partir de la colección completa de casos de datos, después de lo cual la inferencia continúa como para la inferencia bayesiana. Por lo tanto, cuando estima el parámetro para un caso particular, utiliza los datos para ese caso y también la distribución previa estimada, y este último representa la "información" o "fuerza"
Ahora puede ver por qué EB tiene "endeudamiento" pero Bayes verdadero no. En Bayes verdadero, la distribución previa ya existe y, por lo tanto, no necesita ser rogada o prestada. En EB, la distribución previa se ha creado a partir de los datos observados. Cuando hacemos inferencia sobre un caso particular, usamos toda la información observada de ese caso y un poco de información de cada uno de los otros casos. Decimos que es solo "prestado", porque la información se devuelve cuando pasamos a hacer inferencia sobre el próximo caso.
La idea de EB y "préstamo de información" se utiliza en gran medida en la genómica estadística, cuando cada "caso" suele ser un gen o una característica genómica (Smyth, 2004; Phipson et al, 2016).
Referencias
Efron, Bradley y Carl Morris. La paradoja de Stein en las estadísticas. Scientific American 236, no. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
Smyth, GK (2004). Modelos lineales y métodos empíricos de Bayes para evaluar la expresión diferencial en experimentos de microarrays. Aplicaciones estadísticas en genética y biología molecular, volumen 3, número 1, artículo 3. http://www.statsci.org/smyth/pubs/ebayes.pdf
Phipson, B, Lee, S, Majewski, IJ, Alexander, WS y Smyth, GK (2016). La estimación robusta del hiperparámetro protege contra genes hipervariables y mejora el poder para detectar la expresión diferencial. Anales de Estadística Aplicada 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920
fuente
Considere un problema simple como estimar medios de múltiples grupos. Si su modelo los trata como completamente ajenos, entonces la única información que tiene sobre cada media es la información dentro de ese grupo. Si su modelo trata sus medias como algo relacionado (como en un modelo de tipo de efectos mixtos), las estimaciones serán más precisas porque la información de otros grupos informa (regulariza, reduce a una media común) la estimación para un grupo determinado. Ese es un ejemplo de "información de préstamo".
La noción surge en el trabajo actuarial relacionado con la credibilidad (no necesariamente con ese término específico de "préstamo", aunque el préstamo en ese sentido está explícito en las fórmulas); Esto se remonta a un largo camino, al menos hace un siglo, con claros precursores que se remontan a mediados del siglo XIX. Por ejemplo, ver Longley-Cook, LH (1962) Una introducción a la teoría de credibilidad PCAS, 49, 194-221.
Aquí está Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):
Si bien el término préstamo está ausente aquí, la noción de usar la información a nivel de grupo para informarnos sobre este taller de máquinas está claramente allí. [Las nociones permanecen sin cambios cuando la "solidez del préstamo" y la "información del préstamo" comienzan a aplicarse a esta situación]
fuente
Finalmente, el modelado multinivel no es solo efectos mixtos, aunque son los más comunes. Cualquier modelo en el que los parámetros estén influenciados no solo por datos anteriores y datos, sino también por otros parámetros desconocidos puede llamarse modelo multinivel. Por supuesto, este es un conjunto de modelos muy flexible, pero puede redactarse desde cero y ajustarse con una cantidad mínima de trabajo utilizando herramientas como Stan, NIMBLE, JAGS, etc. Hasta este punto, no estoy seguro de que diría multinivel modelar es "bombo"; básicamente, puede escribir cualquier modelo que pueda representarse como un Gráfico Acíclico Dirigidoy ajustarlo de inmediato (suponiendo que tenga un tiempo de ejecución razonable, es decir). Esto le da mucho más poder y creatividad potencial que las opciones tradicionales (es decir, paquetes de modelos de regresión) pero no requiere uno para construir un paquete R completo desde cero solo para adaptarse a un nuevo tipo de modelo.
fuente
Supongo que, dado que etiquetó el aprendizaje automático, le interesa la predicción, en lugar de la inferencia (creo que estoy alineado con la respuesta de @Glen_b, pero solo traduzco a este contexto / vocabulario)
Yo diría que en este caso es una palabra de moda. Un modelo lineal regularizado con una variable grupal tomará prestada información: la predicción a nivel individual será una combinación de la media grupal y el efecto individual. Una forma de pensar en la regularización l1 / l2 es que está asignando un costo de coeficiente por reducción en el error total, ya que una variable de grupo afecta a más muestras que una variable individual, habrá presión para estimar un efecto de grupo, dejando una desviación menor de efecto grupal a cada variable individual.
Para puntos individuales con suficientes datos, el efecto individual será 'fuerte', para aquellos con pocos datos, el efecto será débil.
Creo que la forma más fácil de ver esto es considerando la regularización L1 y 3 individuos del mismo grupo con el mismo efecto. Sin regularizar, el problema tiene un número infinito de soluciones, mientras que la regularización ofrece una solución única.
Asignar todo el efecto al coeficiente de grupo tiene la norma l1 más baja, ya que solo necesitamos 1 valor para cubrir 3 individuos. Por el contrario, asignar todo el efecto a los coeficientes individuales tiene el peor, es decir, 3 veces la norma l1 de asignar el efecto al coeficiente de grupo.
Tenga en cuenta que podemos tener tantas jerarquías como queramos, y las interacciones se ven afectadas de manera similar: la regularización empujará los efectos a las variables principales, en lugar de las interacciones más raras.
El blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - vinculado por @IsabellaGhement da una cotización de la fuerza de endeudamiento
"Este efecto a veces se denomina contracción, porque la contracción de valores más extremos se lleva a un valor más razonable y más promedio. En el libro lme4 , Douglas Bates ofrece una alternativa a la contracción [nombre]"
fuente
Otra fuente que me gustaría recomendar sobre este tema que encuentro particularmente instructiva es la Introducción a Empirical Bayes de David Robinson .
Su ejemplo corriente es si un jugador de béisbol logrará golpear la siguiente pelota que le arrojen. La idea clave es que si un jugador ha existido durante años, uno tiene una idea bastante clara de cuán capaz es y, en particular, puede usar su promedio de bateo observado como una muy buena estimación de la probabilidad de éxito en el próximo lanzamiento.
Por el contrario, un jugador que acaba de comenzar a jugar en una liga aún no ha revelado mucho de su talento real. Por lo tanto, parece una buena elección ajustar la estimación de su probabilidad de éxito hacia una media general si ha sido particularmente exitoso o no exitoso en sus primeros juegos, ya que es probable, al menos en cierta medida, debido a la buena o mala suerte. .
Como un punto menor, el término "pedir prestado" ciertamente no parece usarse en el sentido de que algo que ha sido prestado necesitaría ser devuelto en algún momento ;-).
fuente