Mi pregunta general es: ¿por qué usar en bayesglm
lugar de otros métodos de clasificación?
Nota:
- Solo me interesa la predicción.
- Tengo una cantidad decente de datos (~ 100,000 obs).
Siento que el tamaño de la muestra es lo suficientemente grande como para que los parámetros de una regresión logística regular se distribuyan normalmente (CLT). ¿Qué ganaría al especificar los antecedentes? Mi presentimiento es que solo importará para un pequeño conjunto de datos, pero no tengo ninguna evidencia teórica o aplicada.
bayesian
generalized-linear-model
wcampbell
fuente
fuente
Respuestas:
En ingeniería, así como en la gestión de riesgos de la cadena de suministro, el "conocimiento de ingeniería", por ejemplo, una mejor conjetura de personas educadas, puede ser la mejor información que tiene. Por ejemplo, un experto en el tema puede estimar la probabilidad de que ocurra un tsunami e interrumpir la cadena de suministro, sin datos adicionales (existen mejores métodos para construir los antecedentes). A medida que pasa el tiempo, se producen tsunamis y, como resultado, obtenemos más datos y podemos actualizar nuestros previos (conocimiento de ingeniería) con posteriores (los anteriores ajustados para nuevos datos). En algún momento, habrá tantos datos que el previo inicial es irrelevante, y no importa quién hizo la predicción, tendrá predicciones iguales de probabilidad.
Creo que si tiene tantos datos, es preferible (típicamente) un enfoque frequentista "tradicional" al enfoque bayesiano (por supuesto, otros estarán en desacuerdo, especialmente con elegir entre filosofías estadísticas en lugar de apegarse a una y seleccionar un método apropiado ) Tenga en cuenta que es completamente posible (y ocurre a menudo) que el enfoque Frequentista produzca resultados similares / idénticos al Bayesiano.
Dicho esto, cuando la diferencia en los métodos es una línea de código, ¿por qué no implementar múltiples métodos y comparar los resultados usted mismo?
fuente