¿Una distribución uniforme de muchos valores p da evidencia estadística de que H0 es verdadero?

28

Una sola prueba estadística puede dar evidencia de que la hipótesis nula (H0) es falsa y, por lo tanto, la hipótesis alternativa (H1) es verdadera. Pero no se puede usar para mostrar que H0 es verdadero porque no rechazar H0 no significa que H0 sea verdadero.

Pero supongamos que tiene la posibilidad de hacer la prueba estadística muchas veces porque tiene muchos conjuntos de datos, todos independientes entre sí. Todos los conjuntos de datos son el resultado del mismo proceso y desea hacer una declaración (H0 / H1) sobre el proceso en sí y no está interesado en los resultados de cada prueba. Luego, se recopilan todos los valores p resultantes y se ve a través del gráfico de histograma que los valores p están claramente distribuidos uniformemente.

Mi razonamiento ahora es que esto solo puede suceder si H0 es verdadero; de lo contrario, los valores p se distribuirían de manera diferente. ¿Es esto, por lo tanto, suficiente evidencia para concluir que H0 es cierto? ¿O me estoy perdiendo aquí algo esencial, porque me tomó mucha fuerza de voluntad escribir "concluir que H0 es cierto", lo que suena terriblemente mal en mi cabeza.

Leander Moesinger
fuente
1
Es posible que le interese mi respuesta a una pregunta diferente stats.stackexchange.com/questions/171742/… que tiene algunos comentarios sobre las hipótesis aquí.
mdewey
H0 es falso por su definición.
Joshua
1
En una nota al margen, la razón por la que tengo tantas pruebas (y no he combinado todos los datos en una sola) es que mis datos están distribuidos espacialmente en todo el mundo y quería ver si hay patrones espaciales en el valores p (no los hay, pero si los hubiera significaría que se viola la independencia o que H0 / H1 es cierto en diferentes partes del mundo). No he incluido esto en el texto de la pregunta porque quería mantenerlo en general.
Leander Moesinger el

Respuestas:

22

Me gusta tu pregunta, pero desafortunadamente mi respuesta es NO, no prueba . La razón es muy sencilla. ¿Cómo sabrías que la distribución de los valores p es uniforme? Probablemente deba ejecutar una prueba de uniformidad que le devolverá su propio valor p, y terminará con el mismo tipo de pregunta de inferencia que estaba tratando de evitar, solo un paso más. En lugar de mirar el valor p del original , ahora observa el valor p de otro sobre la uniformidad de distribución de los valores p originales.H0H0H0

ACTUALIZAR

Aquí está la demostración. Genero 100 muestras de 100 observaciones de distribución gaussiana y de Poisson, luego obtengo 100 valores p para la prueba de normalidad de cada muestra. Entonces, la premisa de la pregunta es que si los valores p provienen de una distribución uniforme, entonces demuestra que la hipótesis nula es correcta, lo cual es una afirmación más fuerte que una "falla al rechazar" habitual en inferencia estadística. El problema es que "los valores p son del uniforme" es una hipótesis en sí misma, que de alguna manera hay que probar.

En la imagen (primera fila) a continuación, muestro los histogramas de los valores p de una prueba de normalidad para la muestra de Guassian y Poisson, y puede ver que es difícil decir si uno es más uniforme que el otro. Ese fue mi punto principal.

La segunda fila muestra una de las muestras de cada distribución. Las muestras son relativamente pequeñas, por lo que no puede tener demasiados contenedores. En realidad, esta muestra gaussiana en particular no se ve mucho gaussiana en el histograma.

En la tercera fila, muestro las muestras combinadas de 10,000 observaciones para cada distribución en un histograma. Aquí, puede tener más contenedores, y las formas son más obvias.

Finalmente, ejecuto la misma prueba de normalidad y obtengo valores p para las muestras combinadas y rechaza la normalidad para Poisson, mientras que no puedo rechazar para Gauss. Los valores p son: [0.45348631] [0.]

ingrese la descripción de la imagen aquí

Esto no es una prueba, por supuesto, sino la demostración de la idea de que es mejor ejecutar la misma prueba en la muestra combinada, en lugar de tratar de analizar la distribución de los valores p de las submuestras.

Aquí está el código de Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()
Aksakal
fuente
2
@LeanderMoesinger vas a hacer un punto más fuerte al reunir todas tus pruebas en una. Supongamos que tiene una muestra con 100 observaciones y obtiene el valor p; luego obtenga 99 muestras adicionales y termine con 100 valores p. En cambio, podría ejecutar una muestra de 10,000 observaciones y obtener el valor p, pero será más convincente.
Aksakal
1
@LeanderMoesinger, es probable que no sea pequeño
Aksakal
1
Su respuesta no responde a la pregunta, no preguntó sobre pruebas sino sobre pruebas .
Carlos Cinelli
3
@CarlosCinelli, él tendrá un montón de valores p, que él diría que son uniformes. ¿Cómo es esto una evidencia a menos que demuestre que los valores son de uniforme? De eso estoy hablando.
Aksakal
2
@Aksakal se trata de matemáticas, un evento observado (como una secuencia de valores p) puede no constituir evidencia de algo, pero la razón no se deduce lógicamente de su argumento.
Carlos Cinelli
21

n

H0H0

David Hume y el problema de la inducción.

H0H0

aA[aB]

  • Durante siglos, cada cisne observado por los europeos era blanco. Entonces los europeos descubrieron Australia y vieron cisnes negros.

  • Durante siglos, la ley de gravedad de Newton estuvo de acuerdo con la observación y se pensó correcta. Sin embargo, fue anulada por la teoría de la relatividad general de Einstein.

H0

Una lista (incompleta) de formas de avanzar:

Karl Popper y el falsacionismo

En Karl Popper vista, ninguna ley científica se ha demostrado cierto nunca. Solo tenemos leyes científicas aún no probadas falsas.

Popper argumentó que la ciencia avanza al adivinar hipótesis y someterlas a un escrutinio riguroso. Continúa hacia adelante a través de la deducción (teorías de prueba de observación falsas), no de inducción (teorías de prueba de observación repetida verdaderas). Gran parte de las estadísticas frecuentistas se construyó de acuerdo con esta filosofía.

La visión de Popper ha sido inmensamente influyente, pero como Kuhn y otros han argumentado, no se ajusta del todo a la práctica empíricamente observada de la ciencia exitosa.

Bayesiano, probabilidad subjetiva

θ

θθθP(θ)P(θX)θX. La forma en que te comportas en diversas situaciones tiene cierta correspondencia con estas probabilidades subjetivas.

Esta es una forma lógica de modelar sus propias creencias subjetivas, pero no es una forma mágica de producir probabilidades que sean verdaderas en términos de correspondencia con la realidad. Una pregunta difícil para cualquier interpretación bayesiana es ¿de dónde vienen los priors? Además, ¿qué pasa si el modelo está mal especificado?

George P. Box

Un famoso aforismo de George EP Box es que "todos los modelos son falsos, pero algunos son útiles".

La ley de Newton puede no ser cierta, pero sigue siendo útil para muchos problemas. El punto de vista de Box es bastante importante en el contexto moderno de big data donde los estudios están tan dominados que puede rechazar básicamente cualquier propuesta significativa. Estrictamente verdadero versus falso es una mala pregunta: lo que importa es si un modelo te ayuda a comprender los datos.

Comentarios adicionales

θ0

Quizás también sea de interés, analizar estadísticamente los resultados de múltiples estudios se llama metaanálisis .

Hasta dónde puede llegar más allá de las interpretaciones estadísticas estrechas es una pregunta difícil.

Matthew Gunn
fuente
¡Esta ha sido una lectura interesante y dio algunas cosas bonitas para pensar! Desearía poder aceptar múltiples respuestas.
Leander Moesinger el
Toda una explicación. Mi profesor una vez resumió a Kuhn en el espíritu de Popper: 'La ciencia progresa de funeral en funeral'
skrubber
Kuhn, etc., interpreta erróneamente a Popper cuando afirma que sus observaciones no coinciden con cómo se hace la ciencia. Esto se conoce como falsacionismo nativo, y no es lo que Popper (más adelante) propuso. Es un hombre de paja.
Konrad Rudolph el
2
Respuestas como esta sigo visitando los sitios de StackExchange.
Trilarion
5

En cierto sentido tiene razón (vea la curva p) con algunas pequeñas advertencias:

  1. pααH0
  2. H0H0

Con aplicaciones realistas, tiendes a tener problemas adicionales. Estos surgen principalmente porque ninguna persona / laboratorio / grupo de estudio generalmente puede hacer todos los estudios necesarios. Como resultado, uno tiende a mirar los estudios de muchos grupos, momento en el que tiene mayores preocupaciones (es decir, si hubiera realizado todos los experimentos relevantes usted mismo, al menos lo sabría) de informes no selectivos y selectivos de hallazgos significativos / sorprendentes, p-hacking, pruebas múltiples / correcciones de pruebas múltiples, etc.

Björn
fuente
1
(+1) ¡El power point es muy importante! Diferentes teorías pueden producir datos observacionalmente equivalentes, y una parte crítica del diseño del experimento es producir y / o recopilar datos que le permitan distinguir.
Matthew Gunn el
-2

Hipótesis nula (H0): la gravedad hace que todo en el universo caiga hacia la superficie de la Tierra.

Hipótesis alternativa (H1): nada cae nunca.

p<0.01

usul
fuente
2
¿Crees que Galileo hizo un millón de pruebas? Nada de esto es necesario en ciencias físicas. Establecer las leyes de la naturaleza mediante la aplicación del método científico no se reduce a la inferencia estadística.
Aksakal
2
-1 Esto es científica, estadística e históricamente inexacta. Los griegos una vez creyeron que era la afinidad lo que atraía los objetos a la Tierra. No está mal, pero no explica bien los problemas del sistema corporal 3+. Las hipótesis deben ser complementarias. Por último, declarar un sesgo posiblemente conocido como H_0 y mostrar experimentos que conducen a la misma conclusión incorrecta no hace que la conclusión sea correcta. Por ejemplo, las mujeres ganan menos que los hombres porque están menos motivadas, muestre todos los salarios de las mujeres, ¡H_0 es cierto!
AdamO
@ Adam, ese es exactamente mi punto.
usul
@AdamO, en los países occidentales, las mujeres ganan menos cuando trabajan menos por una variedad de razones, incluyendo su propia elección, desincentivos de todo tipo y ambiente de trabajo hostil en algunos lugares. Cuando trabajan de la misma manera, ganan casi lo mismo, por ejemplo, consulte los salarios de las enfermeras de Medicare donde las mujeres son la gran mayoría: medscape.com/slideshow/… . Todos ganan los mismos $ 37 cuando trabajan por hora. Totalmente fuera de tema, por supuesto.
Aksakal
2
Si su hipótesis nula es Gravity causes everything in the universe to fall toward Earth's surface¿no es la hipótesis alternativa There is at least one thing in the universe that does not fall toward the Earth's surfacey no Nothing ever falls?
Eff