¿Por qué usar bayesglm?

8

Mi pregunta general es: ¿por qué usar en bayesglmlugar de otros métodos de clasificación?

Nota:

  1. Solo me interesa la predicción.
  2. Tengo una cantidad decente de datos (~ 100,000 obs).

Siento que el tamaño de la muestra es lo suficientemente grande como para que los parámetros de una regresión logística regular se distribuyan normalmente (CLT). ¿Qué ganaría al especificar los antecedentes? Mi presentimiento es que solo importará para un pequeño conjunto de datos, pero no tengo ninguna evidencia teórica o aplicada.

wcampbell
fuente
44
Su intuición sobre la relación entre el tamaño de la muestra y los antecedentes es correcta. Por otro lado, la regresión logística bayesiana puede resolver el problema de las estimaciones de parámetros infinitos resultantes de una separación perfecta.
Sycorax dice Reinstate Monica
1
La regresión logística no es un algoritmo de clasificación. Es un algoritmo de predicción de probabilidad.
Brash Equilibrium
1
Lo que menciona Sycorax es una de las razones más importantes por las que desearía utilizar un modelo bayesiano en una configuración de muestra grande. Si su regresión logística tiene muchos predictores, especialmente predictores con baja varianza, considere tener antecedentes sobre los coeficientes de regresión.
Brash Equilibrium

Respuestas:

8

En ingeniería, así como en la gestión de riesgos de la cadena de suministro, el "conocimiento de ingeniería", por ejemplo, una mejor conjetura de personas educadas, puede ser la mejor información que tiene. Por ejemplo, un experto en el tema puede estimar la probabilidad de que ocurra un tsunami e interrumpir la cadena de suministro, sin datos adicionales (existen mejores métodos para construir los antecedentes). A medida que pasa el tiempo, se producen tsunamis y, como resultado, obtenemos más datos y podemos actualizar nuestros previos (conocimiento de ingeniería) con posteriores (los anteriores ajustados para nuevos datos). En algún momento, habrá tantos datos que el previo inicial es irrelevante, y no importa quién hizo la predicción, tendrá predicciones iguales de probabilidad.

Creo que si tiene tantos datos, es preferible (típicamente) un enfoque frequentista "tradicional" al enfoque bayesiano (por supuesto, otros estarán en desacuerdo, especialmente con elegir entre filosofías estadísticas en lugar de apegarse a una y seleccionar un método apropiado ) Tenga en cuenta que es completamente posible (y ocurre a menudo) que el enfoque Frequentista produzca resultados similares / idénticos al Bayesiano.

Dicho esto, cuando la diferencia en los métodos es una línea de código, ¿por qué no implementar múltiples métodos y comparar los resultados usted mismo?

TLJ
fuente
¡Gracias! Buena explicación de algunos aspectos del pensamiento bayesiano, algo que no conozco muy bien.
wcampbell