Por lo tanto, creo que tengo una comprensión decente de los conceptos básicos de la probabilidad frecuentista y el análisis estadístico (y qué tan mal se puede usar). En un mundo frecuentista, tiene sentido hacer una pregunta como "¿es esta distribución diferente de esa distribución", porque se supone que las distribuciones son reales, objetivas e inmutables (para una situación dada, al menos), y así podemos calcular descubra la probabilidad de que una muestra se extraiga de una distribución con forma de otra muestra.
En la visión del mundo bayesiano, solo nos importa lo que esperamos ver, dadas nuestras experiencias pasadas (todavía soy un poco vago en esta parte, pero entiendo el concepto de actualización bayesiana). Si es así, ¿cómo puede un Bayesiano decir "este conjunto de datos es diferente de ese conjunto de datos"?
A los fines de esta pregunta, no me importa la significación estadística, o similar, solo cómo cuantificar la diferencia. Estoy igualmente interesado en distribuciones paramétricas y no paramétricas.
fuente
Respuestas:
Piense en su declaración como un Frequentista y hágalo más específico primero. Un frecuente no podría decir que "el conjunto de datos A es diferente del conjunto de datos B", sin ninguna otra aclaración.
Primero, tendrías que decir lo que quieres decir con "diferente". Quizás te refieres a "tener valores medios diferentes". Por otra parte, puede querer decir "tener diferentes variaciones". O tal vez algo más?
Luego, tendría que indicar qué tipo de prueba usaría, que depende de lo que usted cree que son suposiciones válidas sobre los datos. ¿Asume que los conjuntos de datos están normalmente distribuidos por algún medio? ¿O crees que ambos están distribuidos en Beta? ¿O algo mas?
¿Ahora puede ver que la segunda decisión es muy parecida a las anteriores en las estadísticas bayesianas? No es solo "mi experiencia pasada", sino más bien lo que creo, y lo que creo que mis compañeros creerán, son suposiciones razonables sobre mis datos. (Y los bayesianos pueden usar anteriores uniformes, lo que empuja las cosas hacia cálculos frecuentes).
EDITAR: en respuesta a su comentario: el siguiente paso está contenido en la primera decisión que mencioné. Si desea decidir si las medias de dos grupos son diferentes, debería mirar la distribución de la diferencia de las medias de los dos grupos para ver si esta distribución contiene o no cero, en algún nivel de confianza. Exactamente qué tan cerca de cero cuenta como cero y exactamente qué porción de la distribución (posterior) que usa está determinada por usted y el nivel de confianza que desea.
Una discusión de estas ideas se puede encontrar en un artículo de Kruschke , que también escribió un libro muy fácil de leer Haciendo Análisis de datos bayesiana , que cubre un ejemplo en las páginas 307-309, "son diferentes grupos iguales?". (Segunda edición: p. 468-472.) También tiene una publicación en el blog sobre el tema , con algunas preguntas y respuestas.
EDICIÓN ADICIONAL: Su descripción del proceso bayesiano tampoco es del todo correcta. Los bayesianos solo se preocupan por lo que nos dicen los datos, a la luz de lo que sabíamos independientemente de los datos. (Como señala Kruschke, lo anterior no necesariamente ocurre antes de los datos. Eso es lo que implica la frase, pero en realidad es solo nuestro conocimiento, excluyendo algunos de los datos). Lo que sabíamos independientemente de un conjunto particular de datos puede ser vago o específico. y puede basarse en un consenso, un modelo del proceso de generación de datos subyacente, o puede ser simplemente el resultado de otro experimento (no necesariamente anterior).
fuente
Este documento puede ser de interés: http://arxiv.org/pdf/0906.4032v1.pdf
Da un buen resumen de algunos enfoques frecuentistas y bayesianos al problema de las dos muestras, y discute los casos paramétricos y no paramétricos.
Las probabilidades de los datos en cada caso son:
Espero que ayude junto con las otras respuestas ya publicadas.
fuente
Según los datos, ¿hasta qué punto creemos que 2 grupos no provienen de la misma población (H_1: no provienen de la misma población frente a H_0: provienen de la misma población). Esto se puede hacer con una prueba t bayesiana.
La complejidad se usa para determinar cuánto se superpone lo anterior con una hipótesis. El ajuste se usa para determinar cuánto se superpone la parte posterior con una hipótesis. Combinado, puede comparar las hipótesis y expresar su creencia posterior de si provienen o no de la misma población.
fuente