En pocas palabras: ¿hay alguna diferencia en los enfoques bayesianos y frecuentes para el análisis exploratorio de datos?
No conozco sesgos inherentes a los métodos de EDA, ya que un histograma es un histograma, un diagrama de dispersión es un diagrama de dispersión, etc., ni he encontrado ejemplos de diferencias en cómo se enseña o presenta EDA (ignorando un artículo particularmente teórico de A. Gelman) . Finalmente, miré a CRAN, el árbitro de todas las cosas aplicadas: no he encontrado paquetes adaptados a un enfoque bayesiano. Sin embargo, pensé que CV podría tener algunas personas que podrían arrojar una luz sobre esto.
¿Por qué debería haber diferencias?
Para principiantes:
- Al identificar distribuciones previas apropiadas, ¿no debería uno investigar esto visualmente?
- Al resumir datos y sugerir si se usa un modelo bayesiano o frecuentista, ¿no debería la EDA sugerir qué dirección tomar?
- Los dos enfoques tienen diferencias muy claras sobre cómo manejar los modelos de mezcla. Identificar que una muestra probablemente proviene de una mezcla de poblaciones es un desafío y está directamente relacionado con la metodología utilizada para estimar los parámetros de la mezcla.
- Ambos enfoques incorporan modelos estocásticos y la selección del modelo se basa en la comprensión de los datos. Los datos más complejos o los modelos más complejos requieren más tiempo en EDA. Con tales distinciones entre modelos estocásticos o procesos generadores, existen diferencias en las actividades de EDA, entonces, ¿no debería haber distinciones derivadas de diferentes enfoques estocásticos?
Nota 1: No me interesan las filosofías de ninguno de los "campamentos": solo quiero abordar las lagunas en mi kit de herramientas y métodos EDA.
fuente
Creo que EDA lo ayuda a construir un modelo, hacer algunas suposiciones y (si es necesario) actualizar el modelo y sus suposiciones. Elijo un enfoque pragmático para usar en la adaptación y evaluación del modelo.
fuente