¿Qué significa la prueba de hipótesis bayesiana en el marco de la teoría de la inferencia y la decisión?

15

Mi experiencia es principalmente en aprendizaje automático y estaba tratando de aprender qué significaba la prueba de hipótesis bayesiana. Estoy de acuerdo con la interpretación bayesiana de la probabilidad y la conozco en el contexto de los modelos gráficos probabilísticos. Sin embargo, lo que me confunde es lo que significa la palabra "Hipótesis" en el contexto de la inferencia estadística.

Creo que me estoy confundiendo sobre el vocabulario al que estoy acostumbrado en el aprendizaje automático frente a lo que normalmente se usa en estadística e inferencia.

En el contexto del aprendizaje supervisado , normalmente pienso en la hipótesis como la función predictiva que asigna ejemplos a sus etiquetas, es decir, . Sin embargo, me parece que el término hipótesis, en las lecturas que estoy haciendo, no tiene el mismo significado. Permítanme pegar un extracto de las lecturas que estoy leyendo:h:XY

ingrese la descripción de la imagen aquí

Si lees atentamente también dice:

Hay un modelo diferente para los datos observados ...

si usaran la palabra modelo. Para mí, la palabra modelo me hace pensar en un conjunto de funciones donde seleccionamos una función predictiva específica. es decir, una clase de hipótesis de función. Por ejemplo, podría ser la clase de hipótesis de funciones cuadráticas (polinomio de grado 2). Sin embargo, me parece que usan la palabra modelo e hipótesis como sinónimos en este extracto (donde para mí son palabras completamente diferentes).Hd2

Luego continúa mencionando que podemos anteponer las hipótesis (algo completamente razonable para hacer en un entorno bayesiano):

pH(Hm),     m={0,1,...,M1}

También podemos caracterizar los datos con una hipótesis actual:

py|H(|Hm),     m={0,1,...,M1}

y actualizar nuestras creencias actuales dados algunos datos (y la regla de Baye):

pagHEl |y(HmetroEl |y),     metro={0 0,1,...,METRO-1}

Sin embargo, supongo que estoy más acostumbrado a poner una estimación bayesiana a un parámetro particular (por ejemplo, ) de una clase de hipótesis en lugar de a toda la clase de hipótesis. Básicamente, dado que parece que estas "hipótesis" no son las mismas hipótesis del contexto de aprendizaje automático al que estoy acostumbrado, me parece que estas hipótesis son más similares a un parámetro específico que a una clase de hipótesis.θθ

En este punto, estaba convencido de que "hipótesis" significaba lo mismo que en la función predictiva (parametrizada por un parámetro , por ejemplo), pero creo que estaba equivocado ...θ

Para empeorar aún más mi confusión, más tarde estas mismas lecturas continuaron para especificar una "hipótesis" particular para cada ejemplo de entrenamiento que observaron. Déjame pegar un extracto de lo que quiero decir:

ingrese la descripción de la imagen aquí

La razón por la que esto me confunde es que, si interpreto la hipótesis como un parámetro, entonces para mí no tiene sentido especificar un parámetro específico para cada valor de muestra que vemos. En este punto, llegué a la conclusión de que realmente no sabía qué querían decir con hipótesis, así que publiqué esta pregunta.

Sin embargo, no me rendí por completo, investigué qué significa la hipótesis en las estadísticas frecuentistas y encontré el siguiente video de la academia Khan . Ese video realmente tiene mucho sentido para mí (¡tal vez eres un frecuente! :) . Sin embargo, parece que obtienen una gran cantidad de datos (como un "conjunto de muestras") y, en función de las propiedades del conjunto de muestras, deciden si aceptan o rechazan la hipótesis nula sobre los datos. Sin embargo, en el contexto bayesiano que estoy leyendo, me parece que por cada vector de datos [punto] que se observa, "lo etiquetan" con una hipótesis con la "Prueba de razón de verosimilitud":

ingrese la descripción de la imagen aquí

La forma en que asignan la hipótesis a cada muestra de datos, incluso parece un entorno de aprendizaje supervisado en el que estamos adjuntando una etiqueta a cada conjunto de entrenamiento. Sin embargo, no creo que eso sea lo que están haciendo en este contexto. ¿Qué están haciendo? ¿Qué significa asignar una hipótesis a cada muestra de datos? ¿Cuál es el significado de una hipótesis? ¿Qué significa la palabra modelo?

Básicamente, después de esta larga explicación de mi confusión, ¿alguien sabe qué significa la prueba de hipótesis bayesiana en este contexto?


Si necesita alguna aclaración o algo para mejorar mi pregunta o para que la pregunta tenga sentido, estoy más que feliz de ayudar :)


En mi búsqueda de una respuesta, encontré algunas cosas útiles relacionadas con la prueba de hipótesis estadísticas:

Este aborda una buena introducción al tema si vienes de un fondo CS (como yo):

¿Cuál es una buena introducción a las pruebas de hipótesis estadísticas para informáticos?

En algún momento pregunté sobre los "parámetros predeterminados" (que debería haber definido lo que quise decir. Pensé que era un término estándar pero no lo es, así que aquí lo abordaré) y creo que lo que realmente quise decir es cómo especifica parámetros para cada hipótesis que tenga. Por ejemplo, ¿cómo decide cuál es su hipótesis nula y sus parámetros? Hay una pregunta relacionada con eso:

Cómo especificar la hipótesis nula en la prueba de hipótesis

Pinocho
fuente
@ Xi'an Leí el siguiente artículo de Wikipedia: en.wikipedia.org/wiki/Statistical_model ¿ es eso lo que quieren decir con un modelo y una hipótesis? gracias por tu paciencia por cierto :)
Pinocho
3
Dudo en meterme en esta discusión porque creo que su problema es realmente el de comprender qué significa la prueba de hipótesis en principio, en lugar de específicamente qué prueba de hipótesis hay en el marco bayesiano. Para ayudar con esto, sugiero echar un vistazo al libro "Modos de inferencia estadística paramétrica" ​​de Geisser. books.google.ca/…
rocinante
@rocinante Creo que estoy de acuerdo contigo. Estoy definitivamente confundido acerca de las pruebas de hipótesis en general (y el marco bayesiano no ayuda en absoluto). Definitivamente voy a echar un vistazo a eso. Gracias por su paciencia y comprensión, es muy apreciado.
Pinocho
No es fácil de entender porque no es fácil de articular de manera concisa. En lugar de pensar en esto en términos abstractos (como mapas), tal vez sea útil si lo piensa con un
ejemplo
1
2/2 Supongamos que tiene una moneda y quiere ver si es justa, así que la lanza 50 veces. Ahora tiene un conjunto de datos sobre el que desea hacer alguna inferencia (es decir, la moneda está sesgada o no). Lógicamente, si la moneda es justa, aproximadamente la mitad de los lanzamientos deberían ser cara. (Tenga en cuenta que esto no es una derivación de estadísticas, sino su propio razonamiento lógico). Esa es tu hipótesis. Puede probar esta hipótesis de 2 maneras: la forma bayesiana y la manera frecuentista.
rocinante

Respuestas:

10

Un modelo estadístico está dado por una familia de distribuciones de probabilidad. Cuando el modelo es paramétrico, esta familia se indexa mediante un parámetro desconocido : F = { f ( | θ ) ; θ Θ } Si uno quiere probar una hipótesis en θ como H 0 :θ

F={f(|θ); θΘ}
θ , se pueden considerar dos modelos opuestos: F versus F 0 = { f ( | θ ) ; theta Theta 0 } Desdemi punto de vista bayesiano, estoy llamando la inferencia en el índice del modelo detrás de los datos, M . Por lo tanto, pongo un previo en este índice, ρ 0 y ρ a , así como en los parámetros de ambos modelos, π 0 ( θ ) sobre Θ 0 y πH0:θΘ0F
F0={f(|θ); θΘ0}
Mρ0ρaπ0(θ)Θ0 sobre Θ . Y luego deduzco la distribución posterior de este índice: π ( m = 0 | x ) = ρ 0 Θ 0 f ( x | θ ) π 0 ( θ ) d θπa(θ)Θ Eldocumento al que se vinculóentra en muchos más detalles en esta perspectiva y debería ser su entrada de elección en la prueba estadística de hipótesis, a menos que pueda permitirse el lujo de leer un libro bayesiano completo. O incluso un libro de aprendizaje automático
π(m=0|x)=ρ0Θ0f(x|θ)π0(θ)dθρ0Θ0f(x|θ)π0(θ)dθ+(1ρ0)Θf(x|θ)πa(θ)dθ
como el de Kevin Murphy .

XN(θ,1)H0:θ=0θ=0N(0,1)θθN(0,10)ρ0=1/2

π(m=0|x)=12πexp{x2/2}12πexp{x2/2}+R12πexp{(xθ)2/2}12π×10exp{θ2/20}dθ=exp{x2/2}exp{x2/2}+111exp{x2/22}
Xi'an
fuente
pH(H0)F0θF0py|H(y|H0)H0H0
HmetroθFmetroHm=(θ,Fm)θFmetro
ϱ0H0F0ϱ0=0π0(θ)θH0
entonces, si la hipótesis es una tupla de un modelo estadístico propuesto y un parámetro predeterminado, ¿cómo se elige el parámetro predeterminado?
Pinocho
θ=0
4

Excelente pregunta Creo que su confusión puede ser el resultado de algunas de las diferencias básicas entre las perspectivas "frecuentista" y "bayesiana". Tengo mucha experiencia con el primero y soy nuevo en el segundo, por lo que intentar algunas observaciones simples también podría ayudarme. Edité su pregunta para aclarar algunas distinciones, al menos, tal como las entiendo. ¡Espero que no te moleste! Si me equivoco, puede volver a editar su pregunta o agregar un comentario sobre esta respuesta.

1) A riesgo de sonar demasiado elemental: un modelo es cualquier declaración que intente una explicación de la realidad como "Si tuviera panqueques para el desayuno, debe ser el martes". Como tal, un modelo es una hipótesis. Una famosa cita de George Box: "Todos los modelos están equivocados, algunos modelos son útiles". Para que un modelo sea útil, debe haber alguna forma de probarlo. Ingrese el concepto de hipótesis en competencia y la respuesta a una de sus preguntas. Sugeriría que "... en el contexto de la inferencia estadística", una hipótesis es cualquier modelo que pueda ser útil y pueda probarse matemáticamente. Por lo tanto, la prueba de hipótesis es un medio para tomar una decisión sobre si un modelo es útil o no. En resumen, una hipótesis es un modelo bajo consideración. Podrían ser valores de parámetros diferentes de la misma función o funciones diferentes.

2) Su video de Kahn es un ejemplo de lo que Bayesian llama el enfoque "Frecuentista" para la prueba de hipótesis, por lo que puede haberlo confundido al intentar aplicarlo a sus notas de clase que son bayesianas. He estado tratando de llegar a una simple distinción entre la aplicación de los dos enfoques (que puede ser peligroso). Creo que entiendo la distinción filosófica razonablemente bien. Por lo que he visto, el "Frecuentista" asume un componente aleatorio de los datos y prueba la probabilidad de que los datos observados reciban parámetros no aleatorios. El "Bayesiano" supone que los datos son fijos y determina el valor más probable de los parámetros aleatorios. Esta diferencia lleva a diferentes métodos de prueba.

En la prueba de hipótesis "Frecuentista", un modelo que puede ser útil es aquel que explica algún efecto, por lo que se compara con la "hipótesis nula", el modelo sin efecto. Se intenta establecer un modelo útil que sea mutuamente exclusivo para el modelo sin efecto. La prueba es entonces sobre la probabilidad de observar los datos bajo el supuesto de que no tiene ningún efecto. Si se descubre que esa probabilidad es baja, la hipótesis nula se rechaza y la alternativa es todo lo que queda. (Tenga en cuenta que un purista nunca "aceptaría" la hipótesis nula, solo "no rechazaría" una. Puede parecer que los ángeles bailan sobre la cabeza de un alfiler pero la distinción es filosófica fundamental) La estadística de introducción generalmente comienza con lo que puede sea ​​el ejemplo más simple: "Dos grupos son diferentes".tan grande o mayor como lo mide un experimento aleatorio dado que no son diferentes. Esto suele ser una prueba t donde la hipótesis nula es que la diferencia de las medias es cero. Entonces el parámetro es la media en un valor fijo de cero.

El Bayesiano dice: "Espera un minuto, hicimos esas mediciones y son diferentes, entonces, ¿qué tan probable es eso?" Calculan la probabilidad de cada valor del parámetro aleatorio (ahora) y eligen el más alto como el más probable. Entonces, en cierto sentido, cada valor posible del parámetro es un modelo separado. Pero ahora necesitan una manera de tomar una decisión sobre si el modelo con la mayor probabilidad es lo suficientemente diferente como para importar. Es por eso que sus apuntes introdujeron la función de costo. Para tomar una buena decisión, se necesita suponer las consecuencias de tomar una decisión equivocada.

3) "¿Qué significa asignar una hipótesis a cada muestra de datos?" No creo que lo sean. Tenga cuidado con lo que se entiende por "punto de muestra". Creo que se están refiriendo a un vector de muestra particular y quieren saber qué tan probable es cada hipótesis para todos los vectores de muestra en el espacio muestral. Las ecuaciones (14) y (15) muestran cómo comparar dos hipótesis para un vector de muestra particular. Entonces están simplificando un argumento general de comparar múltiples hipótesis al mostrar cómo comparar solo dos.

MONTE
fuente
0

Digamos que tiene datos de un conjunto de cuadros. Los datos consisten en Longitud (L), Ancho (W), Altura (H) y Volumen (V).

Si no sabemos mucho sobre cajas / geometría, podríamos probar el modelo:

V = a*L + b*W + c*H + e

Este modelo tiene tres parámetros (a, b, c) que podrían variar, más un término de error / costo (e) que describe qué tan bien se ajusta la hipótesis a los datos. Cada combinación de valores de parámetros se consideraría una hipótesis diferente. El valor del parámetro "predeterminado" elegido suele ser cero, que en el ejemplo anterior correspondería a "sin relación" entre V y L, W, H.

Lo que la gente hace es probar esta hipótesis "predeterminada" comprobando si e está más allá de algún valor de corte, generalmente calculando un valor p asumiendo una distribución normal de error alrededor del ajuste del modelo. Si esa hipótesis es rechazada, entonces encuentran la combinación de parámetros a, b, c que maximiza la probabilidad y presentan esta es la hipótesis más probable. Si son bayesianos, multiplican la probabilidad por el anterior para cada conjunto de valores de parámetros y eligen la solución que maximiza la probabilidad posterior.

Obviamente, esta estrategia no es óptima ya que el modelo asume aditividad y perderá que la hipótesis correcta es:

V = L*W*H + e

Editar: @Pinocchio

Tal vez alguien no estuvo de acuerdo con la afirmación de que la prueba de hipótesis no es óptima cuando no hay una razón racional para elegir una / pocas funciones (o como usted dice: "clases de hipótesis") de las infinitas posibles. Por supuesto, esto es trivialmente cierto, y se puede usar "óptimo" en el sentido limitado de "mejor ajuste dada la función de costo y las opciones suministradas". Ese comentario se convirtió en mi respuesta porque no me gustó cómo se pasó por alto el tema de la especificación del modelo en sus notas de clase. Es el principal problema que enfrentan la mayoría de los trabajadores científicos, para lo cual no existe un algoritmo.

Además, no pude entender los valores de p, las pruebas de hipótesis, etc. hasta que entendí la historia, por lo que tal vez también lo ayude. Existen múltiples fuentes de confusión en torno a las pruebas de hipótesis frecuentistas (no estoy tan familiarizado con la historia de la variante bayesiana).

Existe lo que originalmente se denominó "prueba de hipótesis" en el sentido de Neyman-Pearson, "prueba de significación" desarrollada por Ronald Fisher, y también un "híbrido" mal definido, nunca debidamente justificado de estas dos estrategias ampliamente utilizadas en todas las ciencias (que puede referirse casualmente al uso del término anterior o "prueba de significación de hipótesis nula"). Si bien no recomendaría tomar una página de wikipedia como autorizada, muchas fuentes que discuten estos problemas se pueden encontrar aquí . Algunos puntos principales:

  1. El uso de una hipótesis "por defecto" no es parte del procedimiento de prueba de hipótesis original, sino que se supone que el usuario debe utilizar conocimientos previos para determinar los modelos bajo consideración. Nunca he visto una recomendación explícita por parte de los defensores de este modelo con respecto a qué hacer si no tenemos una razón particular para elegir un conjunto dado de hipótesis para comparar. A menudo se dice que este enfoque es adecuado para el control de calidad, cuando existen tolerancias conocidas para comparar algunas medidas.

  2. No existe una hipótesis alternativa bajo el paradigma de "prueba de significación" de Fisher, solo una hipótesis nula, que puede rechazarse si se considera improbable dados los datos. Según mi lectura, el propio Fisher fue equívoco sobre el uso de hipótesis nulas predeterminadas. Nunca pude encontrarlo comentando explícitamente sobre el asunto, sin embargo, seguramente no recomendó que esta debería ser la única hipótesis nula.

  3. El uso de la hipótesis nula predeterminada a veces se interpreta como un "abuso" de la prueba de hipótesis, pero es fundamental para el método híbrido popular mencionado. El argumento dice que esta práctica es a menudo "un preliminar inútil":

    "El investigador formula una predicción teórica, generalmente la dirección de un efecto ... Cuando los datos de hecho muestran el resultado direccional predicho, esto parece confirmar la hipótesis. El investigador prueba una hipótesis nula de 'persona paja' de que el efecto es realmente cero. Si este último no puede ser rechazado en el nivel .05 (o alguna variante), entonces la confirmación aparente de la teoría no puede ser reclamada ... Un error común en este tipo de prueba es confundir el nivel de significancia realmente alcanzado (para rechazando el valor nulo de la persona de la paja) con el nivel de confirmación alcanzado para la teoría original ... la fuerza de la confirmación en realidad depende [de la agudeza de las predicciones numéricas de un investigador], no del nivel de significación alcanzado para un nulo de la persona de la paja ".

    La hipótesis nula prueba la controversia en psicología. David H Krantz. Revista de la Asociación Americana de Estadística; Diciembre de 1999; 94, 448; 1372-1381

El video de la academia Khan es un ejemplo de este método híbrido, y es culpable de cometer el error anotado en esa cita. De la información disponible en ese video solo podemos concluir que las ratas inyectadas difieren de las no inyectadas, mientras que el video afirma que podemos concluir que "la droga definitivamente tiene algún efecto". Un poco de reflexión nos llevaría a considerar que quizás las ratas probadas eran más antiguas que las no inyectadas, etc. Necesitamos descartar explicaciones alternativas plausibles antes de reclamar evidencia para nuestra teoría. Cuanto menos específica es la predicción de la teoría , más difícil es lograr esto.

Edición 2:

Quizás sea útil tomar el ejemplo de sus notas de un diagnóstico médico. Digamos que un paciente puede ser "normal" o en "crisis hipertensiva".

Tenemos información previa de que solo el 1% de las personas están en crisis hipertensivas. Las personas en crisis hipertensivas tienen presión arterial sistólica que sigue una distribución normal con media = 180 y sd = 10. Mientras tanto, las personas normales tienen presión arterial de una distribución normal con media = 120, sd = 10. El costo de juzgar a una persona normal cuando está en cero es cero, el costo de perderse un diagnóstico es 1 y el costo debido a los efectos secundarios debido al tratamiento es 0.2, independientemente de si está en crisis o no. Luego, el siguiente código R calcula el umbral (eta) y la razón de probabilidad. Si la razón de probabilidad es mayor que el umbral que decidimos tratar, si es menor que no:

#Prior probabilities
P0=.99 #Prior probability patient is normal
P1=1-P0 #Prior probability patient is in crisis

#Hypotheses
H0<-dnorm(x=50:250, mean=120, sd=10) #H0: Patient is normal
H1<-dnorm(x=50:250, mean=180, sd=10) #H1: Patient in hypertensive crisis

#Costs
C00=0 #Decide normal when normal
C01=1 #Decide normal when in crisis
C10=.2 #Decide crisis when normal
C11=.2 #Decide crisis when in crisis

#Threshold
eta=P0*(C10-C00)/ P1*(C01-C11)

#Blood Pressure Measurements
y<-rnorm(3, 150, 20)

#Calculate Likelihood of Each Datapoint Given Each Hypothesis
L0vec=dnorm(x=y, mean=120, sd=10) #Vector of Likelihoods under H0
L1vec=dnorm(x=y, mean=180, sd=10) #Vector of Likelihoods under H1

#P(y|H) is the product of the likelihoods under each hypothesis
L0<-prod(L0vec)
L1<-prod(L1vec)

#L(y) is the ratio of the two likelihoods
LikRatio<-L1/L0


#Plot
plot(50:250, H0, type="l", col="Green", lwd=4, 
     xlab=" Systolic Blood Pressure", ylab="Probability Density Given Model",
     main=paste0("L=",signif(LikRatio,3)," eta=", signif(eta,3)))
lines(50:250, H1, col="Red", lwd=4)
abline(v=y)

#Decision
if(LikRatio>eta){
  print("L > eta  ---> Decision: Treat Patient")
}else{
  print("L < eta  ---> Do Not Treat Patient")
}

En el escenario anterior, el umbral eta = 15.84. Si tomamos tres mediciones de presión arterial y obtenemos 139.9237, 125.2278, 190.3765, entonces la razón de probabilidad es 27.6 a favor de H1: Paciente en crisis hipertensiva. Como 27.6 es mayor que el umbral que elegiríamos tratar. El gráfico muestra la hipótesis normal en verde e hipertensiva en rojo. Las líneas negras verticales indican los valores de las observaciones.

enter image description here

Lívido
fuente
¿Puede la persona que rechazó votar esto explicar? ¿Qué tiene de malo esta respuesta? : S
Pinocho
@Pinocchio He intentado aclarar cosas con algo de historia en la respuesta, "la prueba de hipótesis" es un tema difícil de discutir claramente debido a eso. Creo que he respondido las preguntas sobre cómo se usan los términos modelo / hipótesis, pero no entiendo esta: '¿Qué significa asignar una hipótesis a cada muestra de datos?'
Lívido
No puedo entender por qué esta respuesta fue rechazada y por qué no es más votada. Es realmente excelente Podría usar un poco más de definiciones teóricas, pero está claramente orientado hacia un público más amplio que los estadísticos. El primer ejemplo usando un GLM fue particularmente esclarecedor y totalmente en línea con mis (numerosas) lecturas académicas. La conclusión es que la principal diferencia entre las pruebas de hipótesis bayesianas y frecuentistas es la contabilidad de lo anterior para calcular el MAP (en lugar de solo el MLE).
gaborous
Podría agregar que una representación gráfica del primer ejemplo con el GLM sería increíble y muy esclarecedora, ¿tal vez utilizando una especie de diagrama de apalancamiento ?
Gaborous