En términos generales, un valor p da una probabilidad del resultado observado de un experimento dada la hipótesis (modelo). Teniendo esta probabilidad (valor p) queremos juzgar nuestra hipótesis (cuán probable es). Pero, ¿no sería más natural calcular la probabilidad de la hipótesis dado el resultado observado?
En mas detalles. Tenemos una moneda Lo volteamos 20 veces y obtenemos 14 cabezas (14 de 20 es lo que yo llamo "resultado del experimento"). Ahora, nuestra hipótesis es que la moneda es justa (las probabilidades de cabeza y cola son iguales entre sí). Ahora calculamos el valor p, que es igual a la probabilidad de obtener 14 o más caras en 20 lanzamientos de monedas. Bien, ahora tenemos esta probabilidad (0.058) y queremos usar esta probabilidad para juzgar nuestro modelo (¿cómo es probable que tengamos una moneda justa?).
Pero si queremos estimar la probabilidad del modelo, ¿por qué no calculamos la probabilidad del modelo dado el experimento? ¿Por qué calculamos la probabilidad del experimento dado el modelo (valor p)?
fuente
Respuestas:
Calcular la probabilidad de que la hipótesis sea correcta no se ajusta bien a la definición frecuentista de una probabilidad (una frecuencia a largo plazo), que se adoptó para evitar la supuesta subjetividad de la definición bayesiana de una probabilidad. La verdad de una hipótesis particular no es una variable aleatoria, es verdadera o no lo es y no tiene una frecuencia de ejecución larga. De hecho, es más natural estar interesado en la probabilidad de la verdad de la hipótesis, que es en mi humilde opinión por qué los valores de p a menudo se malinterpretan como la probabilidad de que la hipótesis nula sea verdadera. Parte de la dificultad es que, según la regla de Bayes, sabemos que para calcular la probabilidad posterior de que una hipótesis sea cierta, debe comenzar con una probabilidad previa de que la hipótesis sea cierta.
Un bayesiano sería calcular la probabilidad de que la hipótesis es verdadera, dados los datos (y su / su creencia previa).
Esencialmente al decidir entre los enfoques frecuentista y bayesiano es una elección si la supuesta subjetividad del enfoque bayesiano es más aborrecible que el hecho de que el enfoque frecuentista generalmente no da una respuesta directa a la pregunta que realmente desea hacer, pero hay espacio para ambos.
En el caso de preguntar si una moneda es justa, es decir, la probabilidad de una cara es igual a la probabilidad de una cola, también tenemos un ejemplo de una hipótesis que sabemos que en el mundo real es casi seguro que es falsa desde el principio. Las dos caras de la moneda no son simétricas, por lo que deberíamos esperar una ligera asimetría en las probabilidades de cara y cruz, por lo que si la moneda "pasa" la prueba, solo significa que no tenemos suficientes observaciones para poder Concluya lo que ya sabemos que es verdad: ¡que la moneda está ligeramente sesgada!
fuente
Nada como responder una pregunta muy antigua, pero aquí va ...
Los valores p son pruebas de hipótesis casi válidas. Este es un ejercicio ligeramente adaptado tomado del libro de teoría de probabilidad de Jaynes de 2003 (Experimentos repetitivos: probabilidad y frecuencia). Supongamos que tenemos una hipótesis nula que deseamos probar. Tenemos datos y la información antes de . Supongamos que hay alguna hipótesis no especificada que . La odds ratio posterior para frente a viene dada por:H0 D I HA H0 HA H0
Ahora el primer término en el lado derecho es independiente de los datos, por lo que los datos solo pueden influir en el resultado a través del segundo término. Ahora, siempre podemos inventar una hipótesis alternativa tal que - una hipótesis de "ajuste perfecto". Por lo tanto, podemos usar como una medida de qué tan bien los datos podrían soportar cualquier hipótesis alternativa sobre el valor nulo. No existe una hipótesis alternativa de que los datos podrían soportar más de en más de . También podemos restringir la clase de alternativas, y el cambio es que el se reemplaza por la probabilidad maximizada (incluidas las constantes de normalización) dentro de esa clase. SiHA P(D|HAI)=1 1P(D|H0I) H0 1P(D|H0I) 1 P(D|H0I) comienza a ser demasiado pequeño, luego comenzamos a dudar de la nula, porque el número de alternativas entre y crece (incluidas algunas con probabilidades previas no insignificantes) Pero esto es casi lo que se hace con los valores p, pero con una excepción: no calculamos la probabilidad de para alguna estadística y alguna región "mala" de la estadística. Calculamos la probabilidad de : la información que realmente tenemos, en lugar de un subconjunto de ella, .H0 HA t(D)>t0 t(D) D t(D)
Otra razón por la cual las personas usan valores p es que a menudo equivalen a una prueba de hipótesis "adecuada", pero pueden ser más fáciles de calcular. Podemos mostrar esto con el ejemplo muy simple de probar la media normal con varianza conocida. Tenemos datos con un modelo asumido (parte de la información previa ). Queremos probar . Luego tenemos, después de un pequeño cálculo:D≡{x1,…,xN} xi∼Normal(μ,σ2) I H0:μ=μ0
Donde y . Esto muestra que el valor máximo de se alcanzará cuando . El valor maximizado es:x¯¯¯=1N∑Ni=1xi s2=1N∑Ni=1(xi−x¯¯¯)2 P(D|H0I) μ0=x¯¯¯
Entonces tomamos la relación de estos dos, y obtenemos:
Donde es la "estadística Z". Grandes valores dePoner en duda la hipótesis nula, en relación con la hipótesis acerca de la media normal que es más fuertemente apoyado por los datos. También podemos ver que es la única parte de los datos que se necesita y, por lo tanto, es una estadística suficiente para la prueba.z=N−−√x¯¯¯−μ0σ |z| x¯¯¯
El enfoque del valor p para este problema es casi el mismo, pero a la inversa. Comenzamos con la estadística suficiente , y calculamos su distribución de muestreo, que se muestra fácilmente como - donde he usado una letra mayúscula para distinguir la variable aleatoria del valor observado . Ahora necesitamos encontrar una región que arroje dudas sobre la hipótesis nula: se ve fácilmente que son aquellas regiones dondees largo. Entonces podemos calcular la probabilidad de quex¯¯¯ X¯¯¯¯∼Normal(μ,σ2N) X¯¯¯¯ x¯¯¯ |X¯¯¯¯−μ0| |X¯¯¯¯−μ0|≥|x¯¯¯−μ0| como una medida de cuán lejos están los datos observados de la hipótesis nula. Como antes, este es un cálculo simple, y obtenemos:
Ahora, podemos ver que el valor p es una función monotónica decreciente de, lo que significa que esencialmente obtenemos la misma respuesta que la prueba de hipótesis "adecuada". Rechazar cuando el valor p está por debajo de cierto umbral es lo mismo que rechazar cuando las probabilidades posteriores están por encima de cierto umbral. Sin embargo, tenga en cuenta que al hacer la prueba adecuada, tuvimos que definir la clase de alternativas, y tuvimos que maximizar una probabilidad sobre esa clase. Para el valor p, tenemos que encontrar una estadística, calcular su distribución de muestreo y evaluarla en el valor observado. En cierto sentido, elegir una estadística es equivalente a definir la hipótesis alternativa que está considerando.|z|
Aunque ambas cosas son fáciles de hacer en este ejemplo, no siempre son tan fáciles en casos más complicados. En algunos casos, puede ser más fácil elegir la estadística correcta para usar y calcular su distribución de muestreo. En otros, puede ser más fácil definir la clase de alternativas y maximizarla en esa clase.
Este simple ejemplo explica una gran cantidad de pruebas basadas en el valor p, simplemente porque muchas pruebas de hipótesis son de la variedad "normal aproximada". También proporciona una respuesta aproximada a su problema de monedas (mediante el uso de la aproximación normal al binomio). También muestra que los valores p en este caso no lo llevarán por mal camino, al menos en términos de probar una sola hipótesis. En este caso, podemos decir que un valor p es una medida de evidencia contra la hipótesis nula.
Sin embargo, los valores p tienen una escala menos interpretable que el factor bayes: el vínculo entre el valor p y la "cantidad" de evidencia contra el valor nulo es complejo. Los valores p se vuelven demasiado pequeños demasiado rápido, lo que hace que sean difíciles de usar correctamente. Tienden a exagerar el soporte contra el nulo proporcionado por los datos. Si interpretamos los valores p como probabilidades contra el valor nulo: en forma de probabilidad es , cuando la evidencia real es , y en forma de probabilidad es cuando la evidencia real es . O para decirlo de otra manera, usar un valor p como probabilidad de que el nulo sea falso aquí, es equivalente a establecer las probabilidades anteriores. Entonces, para un valor p de0.1 9 3.87 0.05 19 6.83 0.1 las probabilidades anteriores implícitas contra el nulo son y para un valor p de las probabilidades previas implícitas contra el nulo son .2.33 0.05 2.78
fuente
Como ex académico que se mudó a la práctica, tomaré un tiro. Las personas usan valores p porque son útiles. No se puede ver en los libros de texto ejemplos de lanzamientos de monedas. Claro que no son realmente sólidos desde el punto de vista fundamental, pero tal vez eso no sea tan necesario como nos gustaría pensar cuando pensamos académicamente. En el mundo de los datos, estamos rodeados de un número literalmente infinito de cosas posibles para analizar a continuación. Con los cálculos del valor p, todo lo que necesita es una idea de lo que no es interesante y una heurística numérica para qué tipo de datos podría ser interesante (bueno, más un modelo de probabilidad para no ser interesante). Luego, individual o colectivamente, podemos escanear cosas bastante simples, rechazando la mayor parte de lo poco interesante. El valor p nos permite decir "Si no le doy mucha prioridad a pensar en esto de otra manera,
fuente
Su pregunta es un gran ejemplo de razonamiento frecuentista y, en realidad, es bastante natural. He usado este ejemplo en mis clases para demostrar la naturaleza de las pruebas de hipótesis. Pido un voluntario para predecir los resultados de un lanzamiento de moneda. No importa cuál sea el resultado, registro una suposición "correcta". Hacemos esto repetidamente hasta que la clase se vuelva sospechosa.
Ahora, tienen un modelo nulo en su cabeza. Asumen que la moneda es justa. Dado que el supuesto del 50% correcto cuando todo es justo, cada conjetura correcta sucesiva despierta más sospechas de que el modelo de moneda justo es incorrecto. Algunas conjeturas correctas y aceptan el papel del azar. Después de 5 o 10 conjeturas correctas, la clase siempre comienza a sospechar que la probabilidad de una moneda justa es baja. Así es con la naturaleza de la prueba de hipótesis bajo el modelo frecuentista.
Es una representación clara e intuitiva de la visión frecuente de las pruebas de hipótesis. Es la probabilidad de los datos observados dado que el nulo es verdadero. En realidad, es bastante natural como lo demuestra este sencillo experimento. Damos por sentado que el modelo es 50-50, pero a medida que aumenta la evidencia, rechazo ese modelo y sospecho que hay algo más en juego.
Entonces, si la probabilidad de lo que observo es baja dado el modelo que supongo (el valor p), entonces tengo cierta confianza en rechazar mi modelo asumido. Por lo tanto, un valor p es una medida útil de evidencia contra mi modelo asumido teniendo en cuenta el papel del azar.
Un descargo de responsabilidad: tomé este ejercicio de un artículo olvidado hace mucho tiempo en, lo que recuerdo, era una de las revistas ASA.
fuente
"En términos generales, el valor p da una probabilidad del resultado observado de un experimento dada la hipótesis (modelo)".
Pero no lo hace. Ni siquiera a grandes rasgos: esto evita una distinción esencial.
El modelo no se especifica, como señala Raskolnikov, pero supongamos que se refiere a un modelo binomial (lanzamiento de monedas independiente, sesgo de moneda desconocido fijo). La hipótesis es la afirmación de que el parámetro relevante en este modelo, el sesgo o la probabilidad de caras, es 0.5.
"Teniendo esta probabilidad (valor p) queremos juzgar nuestra hipótesis (qué tan probable es)"
De hecho, es posible que queramos hacer este juicio, pero un valor p no nos ayudará (y no fue diseñado para hacerlo).
"¿Pero no sería más natural calcular la probabilidad de la hipótesis dado el resultado observado?"
Quizás lo haría. Ver toda la discusión de Bayes arriba.
"[...] Ahora calculamos el valor p, que es igual a la probabilidad de obtener 14 o más caras en 20 lanzamientos de monedas. OK, ahora tenemos esta probabilidad (0.058) y queremos usar esta probabilidad para juzgue nuestro modelo (cómo es probable que tengamos una moneda justa) ".
'de nuestra hipótesis, suponiendo que nuestro modelo sea verdadero', pero esencialmente: sí. Los valores p grandes indican que el comportamiento de la moneda es consistente con la hipótesis de que es justo. (También suelen ser consistentes con la hipótesis de que es falsa pero tan cerca de ser cierta que no tenemos suficientes datos para contar; ver 'poder estadístico').
"Pero si queremos estimar la probabilidad del modelo, ¿por qué no calculamos la probabilidad del modelo dado el experimento? ¿Por qué calculamos la probabilidad del experimento dado el modelo (valor p)?"
En realidad, no calculamos la probabilidad de los resultados experimentales dada la hipótesis en esta configuración. Después de todo, la probabilidad es de solo 0.176 de ver exactamente 10 caras cuando la hipótesis es verdadera, y ese es el valor más probable. Esto no es una cantidad de interés en absoluto.
También es relevante que generalmente tampoco estimamos la probabilidad del modelo. Tanto las respuestas frecuentistas como las bayesianas generalmente asumen que el modelo es verdadero y hacen sus inferencias sobre sus parámetros. De hecho, no todos los bayesianos estarían interesados en principio en la probabilidad del modelo, es decir: la probabilidad de que toda la situación estuviera bien modelada por una distribución binomial. Podrían hacer muchas comprobaciones de modelos, pero en realidad nunca preguntarán qué tan probable era el binomio en el espacio de otros modelos posibles. Los bayesianos que se preocupan por los factores de Bayes están interesados, otros no tanto.
fuente
Una nota al margen de las otras excelentes respuestas: en ocasiones hay veces que no lo hacemos. Por ejemplo, hasta hace muy poco, fueron prohibidos por completo en la revista Epidemiology , ahora están simplemente "fuertemente desanimados" y el consejo editorial dedicó una enorme cantidad de espacio a una discusión sobre ellos aquí: http: //journals.lww. com / epidem / pages / collectiondetails.aspx? TopicalCollectionId = 4
fuente
Solo agregaré algunas observaciones; Estoy de acuerdo con usted en que el uso excesivo de los valores es perjudicial.p
Algunas personas en las estadísticas aplicadas malinterpretan los valores , en particular entendiéndolos como la probabilidad de que las hipótesis nulas sean ciertas; cf estos documentos: Los valores P no son probabilidades de error y por qué no sabemos realmente qué significa "significancia estadística": una falla educativa importante .p
Otra idea errónea común es que los valores reflejan el tamaño del efecto detectado, o su potencial de clasificación, cuando reflejan tanto el tamaño de la muestra como el tamaño de los efectos. Esto lleva a algunas personas a escribir artículos para explicar por qué las variables que se han mostrado "fuertemente asociadas" a un carácter (es decir, con valores p muy pequeños) son clasificadores pobres, como este ...p
Para concluir, mi opinión es que los valores son muy utilizados debido a los estándares de publicaciones. En las áreas aplicadas (biostatos ...) su tamaño es a veces la única preocupación de algunos revisores.p
fuente
Definir probabilidad . Lo digo en serio. Antes de seguir avanzando, necesitamos establecer los términos.
Una definición intuitiva de probabilidad es una medida de incertidumbre. No estamos seguros de si el próximo lanzamiento de monedas saldrá cara o cara. Esa es la incertidumbre en los datos . Tampoco estamos seguros de si la moneda es justa o no. Eso es incertidumbre sobre el modelo ... o puede llamarse incertidumbre sobre el estado del mundo.D M
Para llegar a la distribución condicional , debe tener la distribución conjunta , es decir, el conocimiento de toda la población de monedas en circulación, cuántas de ellas están falsificadas y cómo las monedas falsas se comportan (lo que puede depender de la forma en que las monedas se hacen girar y quedan atrapadas en el aire).P(M|D) P(M,D)
En el ejemplo particular de las monedas, esto es al menos conceptualmente posible: las cifras del gobierno están disponibles en las monedas que se supone que son justas (28 10 9 por año), o al menos aquellas con características estables. En lo que respecta a las monedas falsas, probablemente no valga la pena hablar de la escala de producción de menos de un millón, por lo que puede ser una probabilidad de que la moneda que obtuvo del registro de un cajero sea injusta. Luego, debe encontrar un modelo de cómo funciona la moneda injusta ... y obtener la distribución conjunta y el estado de los datos.⋅ 106/28⋅109
En el mundo práctico, los problemas con dichas afecciones médicas y la forma en que funcionan, es posible que no pueda encontrar ninguno de estos componentes de la distribución conjunta, y no puede condicionar.
El modelado bayesiano proporciona una forma de simplificar los modelos y crear estas juntas . Pero el diablo está en los detalles. Si dice que la moneda justa es la que tiene , y luego especifique un Beta tradicional anterior, y obtenga el Beta conjugado posterior, entonces ... ¡sorpresa, sorpresa! para cualquiera de estas distribuciones continuas, sin importar si su anterior es o . Por lo tanto, tendría que incorporar una masa puntual a , asignarle una masa previa (P(M,D) p=0.5 P(p=0.5)=0 B(0.5,0.5) B(1000,1000) 0.5 28⋅109/(28⋅109+106) , digamos), y vea si sus datos alejan la parte posterior de ese punto de masa. Este es un cálculo más complicado que involucra el muestreo de Metropolis-Hastings en lugar del muestreo más tradicional de Gibbs.
Además de las dificultades para hablar sobre cuáles son exactamente los modelos correctos, los métodos bayesianos tienen formas limitadas de abordar la especificación errónea del modelo. Si no le gustan los errores gaussianos, o no cree en la independencia de los lanzamientos de monedas (su mano se cansa después de los primeros 10,000 lanzamientos, por lo que no los arroja tan alto como los primeros 1,000 más o menos, lo que puede afectar las probabilidades), todo lo que puede hacer en el mundo bayesiano es construir un modelo más complicado: anteriores a las mezclas normales, splines en las probabilidades a lo largo del tiempo, lo que sea. Pero no hay un error análogo directo a los errores estándar de Huber sandwich que reconocen explícitamente que el modelo puede estar mal especificado, y están preparados para dar cuenta de eso.
Volviendo a mi primer párrafo, nuevamente, defina la probabilidad. La definición formal es el trío . es el espacio de posibles resultados (combinaciones de modelos y datos). es el álgebra de lo que se puede medir en ese espacio. es la medida / densidad de probabilidad asociada a los subconjuntos , matemática , que deben ser medibles para que funcionen las matemáticas de probabilidad. En dimensiones finitas, la mayoría de los conjuntos razonables son medibles: consulte los conjuntos Borel<Ω,F,P> Ω F σ P A⊂Ω A∈F , No te voy a aburrir con detalles. Con los espacios infinitos más interesantes (los de curvas y trayectorias, por ejemplo), las cosas se ponen difíciles rápidamente. Si tiene un proceso aleatorio en un intervalo de unidad de tiempo, entonces el conjunto no es medible, a pesar de su aparente simplicidad . (Conjuntos como son medibles para finito , y de hecho generan el álgebra requerido . Pero aparentemente eso no es suficiente. .) Por lo tanto, las probabilidades en grandes dimensiones pueden ser complicadas incluso a nivel de definiciones, y mucho menos los cálculos.Xt,t∈[0,1] {Xt>0,t∈[0,0.5]} {Xt>0,t∈{t1,t2,…,tk}} k σ
fuente
Porque no sabemos cómo. Hay un número infinito de modelos posibles, y su espacio de probabilidad no está definido.
Aquí hay un ejemplo práctico. Digamos que quiero pronosticar el PIB de EE. UU. Obtengo la serie temporal y me ajusto a un modelo. ¿Cuál es la probabilidad de que este modelo sea verdadero?
Entonces, un modelo de caminata aleatoria en la serie GDP: donde es la tasa de crecimiento y es un error aleatorio. Mi código a continuación hace exactamente eso, y también produce el pronóstico (rojo) y compara los datos históricos (azul). μ e t
Sin embargo, ¿ quién dijo que el PIB es un proceso de caminata aleatoria? ¿Qué fue un proceso de tendencia? Entonces, la tendencia: donde es la pendiente de la tendencia temporal. El pronóstico utilizando un modelo de tendencia se muestra en el mismo gráfico (amarillo). c
Ahora, ¿cómo calcularías la probabilidad de que mi modelo de caminata aleatoria sea verdadero? Dentro de MLE podríamos calcular la probabilidad de la deriva dado el conjunto de datos, pero esa no es la probabilidad. En segundo lugar, y lo que es más importante, ¿cómo calcularía la probabilidad de que el modelo sea aleatorio con esta deriva sabiendo que también podría ser un modelo de tendencia? Podría ser cualquier otro número de modelos que produzcan este tipo de dinámica.μ
fuente