¿Cuál es un buen ejemplo convincente en el que los valores p son útiles?

64

Mi pregunta en el título se explica por sí misma, pero me gustaría darle un poco de contexto.

El ASA emitió una declaración a principios de esta semana " sobre los valores p: contexto, proceso y propósito ", que describe varios conceptos erróneos comunes sobre el valor p e insta a la precaución de no usarlo sin contexto y pensamiento (lo que podría decirse sobre cualquier método estadístico, de verdad).

En respuesta a la ASA, el profesor Matloff escribió una publicación en el blog titulada: Después de 150 años, la ASA dice No a los valores p . Luego, el profesor Benjamini (y yo) escribimos una publicación de respuesta titulada No es culpa de los valores p : reflexiones sobre la reciente declaración de ASA . En respuesta a esto, el profesor Matloff preguntó en una publicación de seguimiento :

Lo que me gustaría ver [...] es: un buen ejemplo convincente en el que los valores p son útiles. Eso realmente tiene que ser el resultado final.

Para citar sus dos argumentos principales en contra de la utilidad del valor :p

  1. Con muestras grandes, las pruebas de significación se abalanzan sobre desviaciones pequeñas y sin importancia de la hipótesis nula.

  2. Casi ninguna hipótesis nula es cierta en el mundo real, por lo que realizar una prueba de significación en ellas es absurdo y extraño.

Estoy muy interesado en lo que otros miembros de la comunidad con validación cruzada piensan de esta pregunta / argumentos, y de lo que puede constituir una buena respuesta a ella.

Tal Galili
fuente
55
Observe otros dos hilos relacionados con este tema: stats.stackexchange.com/questions/200500/… y stats.stackexchange.com/questions/200745/…
Tim
2
Gracias Tim. Sospecho que mi pregunta es lo suficientemente diferente como para merecer su propio hilo (especialmente porque no fue respondida en los dos que mencionó). Aún así, los enlaces son muy interesantes!
Tal Galili
3
Se merece y es interesante (de ahí mi +1), proporcioné los enlaces solo para tu información :)
Tim
3
Debo decir que (todavía) no he leído lo que Matloff escribió sobre el tema, pero aún así, para que su pregunta se mantenga por sí sola, ¿puede resumir brevemente por qué encuentra algún ejemplo estándar de uso de valores p no " bueno / convincente "? Por ejemplo, alguien quiere estudiar si cierta manipulación experimental cambia el comportamiento animal en una dirección particular; entonces se miden y comparan grupos experimentales y de control. Como lector de dicho documento, estoy feliz de ver el valor p (es decir, son útiles para mí), porque si es grande, entonces no necesito prestar atención. Este ejemplo no es suficiente?
ameba dice Reinstate Monica
1
@amoeba - los enumera aquí: matloff.wordpress.com/2016/03/07/… ----- Citando sus argumentos: 1) con muestras grandes, pruebas de significación se abalanzan sobre pequeñas desviaciones sin importancia de la hipótesis nula. 2) Casi ninguna hipótesis nula es cierta en el mundo real, por lo que realizar una prueba de significación sobre ellas es absurdo y extraño. ----- Tengo mi propia opinión sobre estos (que me gustaría formalizar más adelante), pero estoy seguro de que otros tendrán formas perspicaces de responder a esto.
Tal Galili

Respuestas:

44

Consideraré los dos puntos de Matloff:

  1. Con muestras grandes, las pruebas de significación se abalanzan sobre desviaciones pequeñas y sin importancia de la hipótesis nula.

    La lógica aquí es que si alguien informa altamente significativo , entonces solo con este número no podemos decir si el efecto es grande e importante o irrelevantemente pequeño (como puede suceder con grande ). Este argumento me parece extraño y no puedo conectarme con él en absoluto, porque nunca he visto un estudio que informe un valor sin informar [algún equivalente del] tamaño del efecto. Los estudios que leí dirían, por ejemplo, (y generalmente muestran en una figura) que el grupo A tenía tal y tal media, el grupo B tenía tal y tal media y eran significativamente diferentes con tal y tal valor . Obviamente puedo juzgar por mí mismo si la diferencia entre A y B es grande o pequeña.n p pp=0.0001npp

    (En los comentarios, @RobinEkman me señaló varios estudios altamente citados por Ziliak & McCloskey ( 1996 , 2004 ) que observaron que la mayoría de los artículos de economía anuncian la "importancia estadística" de algunos efectos sin prestar mucha atención al tamaño del efecto y su "importancia práctica" (que, según Z&MS, a menudo puede ser minúscula). Esto es claramente una mala práctica. Sin embargo, como explicamos a continuación @MatteoS, los tamaños del efecto (estimaciones de regresión) siempre se informan, por lo que mi argumento es válido.

  2. Casi ninguna hipótesis nula es cierta en el mundo real, por lo que realizar una prueba de significación en ellas es absurdo y extraño.

    Esta preocupación también se expresa a menudo, pero aquí nuevamente no puedo conectarme realmente con ella. Es importante darse cuenta de que los investigadores no aumentan su ad infinitum . En la rama de neurociencia con la que estoy familiarizado, las personas harán experimentos con o tal vez , digamos, ratas. Si no se ve ningún efecto, la conclusión es que el efecto no es lo suficientemente grande como para ser interesante. Nadie que yo conozca se encendería la cría, la formación, la grabación, y sacrificando ratas para demostrar que no es un efecto estadísticamente significativo, pero pequeño. Y si bien puede ser cierto que casi ningún efecto real es exactamente cero, esn = 20 n = 50 n = 5000n n=20n=50n=5000 Ciertamente, es cierto que muchos efectos reales son lo suficientemente pequeños como para ser detectados con tamaños de muestra razonables que los investigadores razonables realmente están utilizando, ejerciendo su buen juicio.

    (Existe una preocupación válida de que los tamaños de muestra a menudo no son lo suficientemente grandes y que muchos estudios tienen poca potencia. Por lo tanto, tal vez los investigadores en muchos campos deberían apuntar, por ejemplo, a lugar de Aún así, sea cual sea el tamaño de la muestra es , pone un límite al tamaño del efecto que el estudio tiene poder para detectar).n = 20n=100n=20

    Además, no creo estar de acuerdo en que casi ninguna hipótesis nula es verdadera, al menos no en los estudios aleatorizados experimentales (a diferencia de los observacionales). Dos razones:

    • Muy a menudo hay una direccionalidad en la predicción que se está probando; El objetivo del investigador es demostrar que algún efecto es positivo . Por convención, esto generalmente se hace con una prueba de dos lados asumiendo un punto nulo pero en realidad es una prueba unilateral que intenta rechazar . (La respuesta de @ CliffAB, +1, hace un punto relacionado.) Y esto ciertamente puede ser cierto.H 0 : δ = 0 H 0 : δ < 0δ>0H0:δ=0H0:δ<0

    • Incluso hablando del punto "nulo" nulo , no veo por qué nunca son ciertas. Algunas cosas simplemente no están causalmente relacionadas con otras cosas. Mire los estudios de psicología que no se han podido replicar en los últimos años: personas que sienten el futuro; mujeres vestidas de rojo cuando ovulan; cebado con palabras relacionadas con la vejez que afectan la velocidad al caminar; etc. Es muy posible que no haya vínculos causales aquí, por lo que los verdaderos efectos son exactamente cero.H0:δ=0

Él mismo, Norm Matloff sugiere usar intervalos de confianza en lugar de valores porque muestran el tamaño del efecto. Los intervalos de confianza son buenos, pero observe una desventaja de un intervalo de confianza en comparación con el valor : el intervalo de confianza se informa para un valor de cobertura particular, por ejemplo, . Ver un intervalo de confianza del no me dice qué tan amplio sería un intervalo de confianza del . Pero un solo valor se puede comparar con cualquier y diferentes lectores pueden tener diferentes alfa en mente.p 95 % 95 % 99 % p αpp95%95%99%pα

En otras palabras, creo que para alguien a quien le gusta usar intervalos de confianza, un valor es una estadística adicional útil y significativa para informar.p


Me gustaría dar una larga cita sobre la utilidad práctica de los valores de mi blogger favorito Scott Alexander; él no es un estadístico (es un psiquiatra) pero tiene mucha experiencia leyendo literatura psicológica / médica y analizando las estadísticas allí. La cita es de su publicación de blog sobre el estudio de chocolate falso que recomiendo encarecidamente. El énfasis es mío.p

[...] Pero supongamos que no se nos permite hacer valores . Todo lo que hago es decirte "Sí, hubo un estudio con quince personas que encontró que el chocolate ayudó con la resistencia a la insulina" y te ríes en mi cara. Se supone que el tamaño del efecto ayuda con eso. Pero supongamos que le digo "Hubo un estudio con quince personas que encontró que el chocolate ayudó con la resistencia a la insulina. El tamaño del efecto fue de ". No tengo ninguna intuición para saber si eso es consistente o no con el ruido aleatorio. ¿Vos si? Bien, entonces dicen que se supone que debemos informar los intervalos de confianza. El tamaño del efecto fue de , con un intervalo de confianza del dep0.60.695%[0.2,1.0]. Bueno. Así que verifico el límite inferior del intervalo de confianza, veo que es diferente de cero. Pero ahora no estoy trascendiendo el valor . Solo estoy usando el valor p haciendo una especie de cálculo erróneo de mí mismo: "el intervalo de confianza del no incluye cero" es lo mismo que "el valor es menor que ".p95%p0.05

(Imagine que, aunque sé que el intervalo de confianza del no incluye cero, empiezo a preguntarme si el intervalo de confianza del sí. ¡Si solo hubiera alguna estadística que me diera esta información!)95%99%

¿Pero no deshacerse de los valores evitaría el " hacking"? Tal vez, pero simplemente daría paso a "d-hacking". ¿No crees que podrías probar veinte parámetros metabólicos diferentes y solo reportar el que tenga el mayor tamaño de efecto? La única diferencia sería que el hackeo p es completamente transparente: si haces veinte pruebas y reportas un de , sé que eres un idiota, pero el hackeo d sería inescrutable. Si haces veinte pruebas e informas que una de ellas obtuvo una , ¿es impresionante? [...]ppp0.05d=0.6

Pero, ¿no cambiar de los valores a los tamaños de efecto evitaría que las personas hicieran un gran problema con los pequeños efectos que, sin embargo, son estadísticamente significativos? Sí, pero a veces queremos hacer un gran problema con los pequeños efectos que, sin embargo, son estadísticamente significativos. Suponga que Coca-Cola está probando un nuevo aditivo de producto y encuentra en grandes estudios epidemiológicos que causa una muerte adicional por cada cien mil personas por año. Ese es un tamaño de efecto de aproximadamente cero, pero aún podría ser estadísticamente significativo. Y dado que alrededor de mil millones de personas en todo el mundo beben Coca-Cola cada año, son diez mil muertes. Si Coca-Cola dijera "No, el tamaño del efecto es demasiado pequeño, no vale la pena pensarlo", matarían a casi dos mil millonarios de personas.p


Para un análisis más detallado de varias alternativas a los valores (incluidos los bayesianos), consulte mi respuesta en ASA que analiza las limitaciones de los valores : ¿cuáles son las alternativas?ppp

ameba dice Reinstate Monica
fuente
1
Su respuesta al segundo argumento pierde el punto, en mi opinión. Nadie sugiere que los investigadores reales aumenten sus tamaños de muestra hasta el infinito. El punto (tal como lo veo) es que cualquier hipótesis nula de la forma "efecto = 0" que un investigador estaría interesado en probar será falsa, y tiene poco valor realizar una prueba de hipótesis si la hipótesis nula ya es se sabe que es falso Por supuesto, esto supone que lo que realmente nos interesa son los parámetros de población relevantes, en lugar de las características de la muestra.
mark999
1
Pero admito que "cualquier hipótesis nula ... va a ser falsa" es solo una suposición.
mark999
1
Debo admitir que mi razonamiento aquí fue bastante informal y nunca intenté formalizarlo. Tal vez para que este argumento funcione, no debería decir que hay un límite claro entre los tamaños de efectos interesantes y poco interesantes. Más bien es un continuo con un interés creciente cada vez más lejos de cero, y el tamaño de muestra "razonable" debería dar una pequeña potencia a los tamaños de efectos muy poco interesantes y una gran potencia a los muy interesantes, pero no hay un umbral único. Me pregunto si se puede formalizar con precisión a lo largo de las líneas de Neyman-Pearson.
ameba dice Reinstate Monica
66
Tal vez "nunca haya visto un estudio que informara un valor sin informar [algún equivalente del] tamaño del efecto", pero Ziliak y McCloskey encontraron unos 300 artículos publicados en una sola revista, The American Economic Review, durante solo dos décadas . Dichos documentos representaron más del 70% de todos los documentos que vieron. p
Robin Ekman
3
@amoeba: la fuente del reclamo del 70% puede ser la redacción ambigua en el resumen de 2006: "de los 182 trabajos completos publicados en la década de 1980 en el [AER], el 70% no distinguía la importancia económica de la estadística". Lo que quieren decir con esto, como se explica en ambos documentos, es que a menudo solo se comenta el último, y que la magnitud del coeficiente de regresión en relación con la variable dependiente ("significación económica" en su jerga) no se analiza tan extensamente . Pero siempre se informa. Le sugiero que edite su actualización en la respuesta para reflejar eso :-)
MatteoS
29

Me ofende mucho las siguientes dos ideas:

  1. Con muestras grandes, las pruebas de significación se abalanzan sobre desviaciones pequeñas y sin importancia de la hipótesis nula.

  2. Casi ninguna hipótesis nula es cierta en el mundo real, por lo que realizar una prueba de significación en ellas es absurdo y extraño.

Es un argumento de paja sobre los valores p. El problema fundamental que motivó el desarrollo de las estadísticas proviene de ver una tendencia y de querer saber si lo que vemos es por casualidad o representativo de una tendencia sistemática.

Con eso en mente, es cierto que nosotros, como estadísticos, generalmente no creemos que una hipótesis nula sea verdadera (es decir, , donde es la diferencia media en alguna medición entre dos grupos). Sin embargo, con las pruebas de dos lados, ¡no sabemos qué hipótesis alternativa es verdadera! En una prueba de dos lados, podemos estar dispuestos a decir que estamos 100% seguros de que antes de ver los datos. Pero no sabemos si o . Entonces, si ejecutamos nuestro experimento y concluimos que , hemos rechazado (como podría decir ; conclusión inútil) pero, lo que es más importante, también hemos rechazadoμ dHo:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (digo; conclusión útil). Como señaló @amoeba, esto también se aplica a la prueba unilateral que tiene el potencial de ser bilateral, como probar si un medicamento tiene un efecto positivo.

Es cierto que esto no te dice la magnitud del efecto. Pero sí te dice la dirección del efecto. Así que no pongamos el carro delante del caballo; Antes de comenzar a sacar conclusiones sobre la magnitud del efecto, ¡quiero estar seguro de que tengo la dirección correcta del efecto!

Del mismo modo, el argumento de que "los valores p se abalanzan sobre los efectos pequeños y sin importancia" me parece bastante erróneo. Si piensa en un valor p como una medida de cuánto los datos apoyan la dirección de su conclusión, entonces, por supuesto, desea que recoja pequeños efectos cuando el tamaño de la muestra es lo suficientemente grande. Decir que esto significa que no son útiles es muy extraño para mí: ¿son estos campos de investigación que han sufrido valores p los mismos que tienen tantos datos que no necesitan evaluar la fiabilidad de sus estimaciones? Del mismo modo, si su problema es que los valores p "se abalanzan sobre tamaños de efectos pequeños", entonces simplemente puede probar las hipótesis yH 2 : μ d < - 1H1:μd>1H2:μd<1(suponiendo que cree que 1 es el tamaño de efecto mínimo importante). Esto se hace a menudo en ensayos clínicos.

Para ilustrar más esto, supongamos que solo miramos los intervalos de confianza y descartamos los valores p. ¿Qué es lo primero que verificaría en el intervalo de confianza? Si el efecto fue estrictamente positivo (o negativo) antes de tomar los resultados demasiado en serio. Como tal, incluso sin valores de p, estaríamos haciendo pruebas de hipótesis de manera informal.

Finalmente, con respecto a la solicitud de OP / Matloff, "Da un argumento convincente de que los valores p son significativamente mejores", creo que la pregunta es un poco incómoda. Digo esto porque, según su punto de vista, se responde automáticamente ("deme un ejemplo concreto donde probar una hipótesis es mejor que no probarla"). Sin embargo, un caso especial que creo que es casi innegable es el de los datos RNAseq. En este caso, típicamente observamos el nivel de expresión de ARN en dos grupos diferentes (es decir, enfermos, controles) y tratamos de encontrar genes que se expresan diferencialmente en los dos grupos. En este caso, el tamaño del efecto en sí mismo ni siquiera es realmente significativo. Esto se debe a que los niveles de expresión de diferentes genes varían tanto que, para algunos genes, tener una expresión 2 veces mayor no significa nada, mientras que en otros genes estrictamente regulados, una expresión 1,2 veces mayor es fatal. Entonces, la magnitud real del tamaño del efecto es realmente poco interesante cuando se comparan los grupos por primera vez. Pero tu¡realmente, realmente quiero saber si la expresión del gen cambia entre los grupos y la dirección del cambio! Además, es mucho más difícil abordar los problemas de las comparaciones múltiples (para las cuales puede hacer 20,000 de ellas en una sola ejecución) con intervalos de confianza que con los valores p.

Acantilado
fuente
2
No estoy de acuerdo con que conocer la dirección del efecto sea en sí mismo útil. Si me escupió en el suelo, sé que esto será el crecimiento sea para mejorar o inhibir la planta (es decir, la hipótesis nula de no efecto es falsa). ¿De qué manera es útil conocer la dirección de este efecto sin ninguna información sobre su magnitud? ¡Sin embargo, esto es lo único que le dice el valor p de su prueba de dos lados / dos pruebas de un solo lado (más o menos)! (Por cierto, creo que el ejemplo de 'escupir en el suelo' fue tomado de un documento sobre valores p que leí hace años, pero no recuerdo cuál.)
Karl Ove Hufthammer
3
@KarlOveHufthammer: Carro antes del caballo. No debería parar solo porque conozco la dirección del efecto. Pero debería importarme tener la dirección correcta antes de comenzar a preocuparme por la magnitud. ¿Crees que la comunidad científica estaría mejor al abarcar todo con grandes efectos estimados sin verificar los valores p?
Cliff AB
3
Ha:μd>1Ha:μd<1
2
Hiciste varios puntos muy buenos en las ediciones. ¡Realmente me gusta tu respuesta ahora!
ameba dice Reinstate Monica
3
Mientras trabajaba en mi respuesta a stats.stackexchange.com/questions/200500, me encontré con esta reciente preimpresión de Wagenmakers et al donde esencialmente argumentan su punto sobre la direccionalidad: "los valores P unilaterales pueden recibir una interpretación bayesiana como una prueba aproximada de dirección, es decir, una prueba de si un efecto latente es negativo o positivo ". Es interesante porque Wagenmakers es un Bayesiano acérrimo, escribió mucho en contra de los valores p. Aún así, veo algún acuerdo conceptual aquí.
ameba dice Reinstate Monica
6

Perdone mi sarcasmo, pero un buen ejemplo obvio de la utilidad de los valores p está en ser publicado. Tuve un investigador que se me acercó para producir un valor p ... había introducido un transgén en una sola planta para mejorar el crecimiento. De esa sola planta, produjo múltiples clones y eligió el clon más grande, un ejemplo en el que se enumera toda la población. Su pregunta, el revisor quiere ver un valor p de que este clon es el más grande. Mencioné que no hay necesidad de estadísticas en este caso, ya que tenía a la población entera a mano, pero fue en vano.

Más seriamente, en mi humilde opinión, desde una perspectiva académica, encuentro esta discusión interesante y estimulante, al igual que los debates frecuentistas vs bayesianos de hace unos años. Resalta las diferentes perspectivas de las mejores mentes en este campo e ilumina las muchas suposiciones / dificultades asociadas con la metodología que generalmente no es fácilmente accesible.

En la práctica, creo que, en lugar de discutir sobre el mejor enfoque y reemplazar un criterio defectuoso por otro, como se ha sugerido anteriormente en otro lugar, para mí es más bien una revelación de un problema sistémico subyacente y el enfoque debería estar en tratar de encontrar lo mejor soluciones Por ejemplo, uno podría presentar situaciones en las que los valores de p y el IC se complementan entre sí y las circunstancias en las que uno es más confiable que el otro. En el gran esquema de las cosas, entiendo que todas las herramientas inferenciales tienen sus propios defectos que deben ser entendidos en cualquier aplicación para no obstaculizar el progreso hacia el objetivo final ... la comprensión más profunda del sistema de estudio.

ashokragavendran
fuente
6

Le daré el caso ejemplar de cómo se deben usar e informar los valores p. Es un informe muy reciente sobre la búsqueda de una partícula misteriosa en el Gran Colisionador de Hadrones (LHC) en el CERN .

Hace unos meses hubo mucha charla emocionada en los círculos de física de alta energía sobre la posibilidad de que se detectara una gran partícula en el LHC. Recuerde que esto fue después del descubrimiento del bosón de Higgs . Aquí está el extracto del artículo "Buscar resonancias que decaen a pares de fotones en 3.2 fb − 1 de colisiones de pp en √s = 13 TeV con el detector ATLAS" por The ATLAS Collaboration 15 de diciembre de 2015 y mis comentarios siguen:

ingrese la descripción de la imagen aquí

Lo que dicen aquí es que el conteo de eventos excede lo que predice el Modelo Estándar . La siguiente figura del documento muestra los valores p de eventos en exceso en función de la masa de una partícula. Usted ve cómo el valor p cae alrededor de 750 GeV. Entonces, dicen que existe la posibilidad de que se detecte una nueva partícula con una masa igual a 750 Giga eV . Los valores p de la figura se calculan como "locales". Los valores p globales son mucho más altos. Sin embargo, eso no es importante para nuestra conversación.

Lo importante es que los valores p aún no son "lo suficientemente bajos" para que los físicos declaren un hallazgo, sino "lo suficientemente bajos" para entusiasmarse. Por lo tanto, planean seguir contando y esperan que esos valores p disminuyan aún más.

ingrese la descripción de la imagen aquí

Amplíe unos meses antes de agosto de 2016, Chicago, una conferencia sobre HEP . Hubo un nuevo informe presentado "Búsqueda de producción resonante de pares de fotones de alta masa utilizando 12.9 fb − 1 de colisiones protón-protón a √ s = 13 TeV e interpretación combinada de búsquedas a 8 y 13 TeV" por The CMS Collaboration esta vez. Aquí están los extractos con mis comentarios nuevamente:

ingrese la descripción de la imagen aquí

Entonces, los chicos continuaron recolectando eventos, y ahora esa cantidad de eventos en exceso a 750 GeV se ha ido. La siguiente figura del documento muestra los valores p, y puede ver cómo aumentó el valor p en comparación con el primer informe. Entonces, lamentablemente concluyen que no se detectan partículas a 750 GeV.

ingrese la descripción de la imagen aquí

Creo que así es como se supone que deben usarse los valores p. Tienen un sentido total y claramente funcionan. Creo que la razón es que los enfoques frecuentistas son inherentemente naturales en la física. No hay nada subjetivo sobre la dispersión de partículas. Recoge una muestra lo suficientemente grande y obtiene una señal clara si está allí.

Si realmente está interesado en cómo se calculan exactamente los valores p aquí, lea este artículo : "Fórmulas asintóticas para pruebas basadas en la probabilidad de nueva física" por Cowan et al.

Aksakal
fuente
2
Todos esperaban que el pico de 750 GeV fuera real y ahora esté triste. Pero en realidad esperaba que fuera una fluctuación (y podría haber apostado a que lo haría) y ahora estoy aliviado. Creo que es genial que el modelo estándar funcione tan bien. No entiendo el deseo ardiente de ir más allá del modelo estándar (como si todo lo demás en física estuviera resuelto). De todos modos, +1, buen ejemplo.
ameba dice Reinstate Monica
2

Las otras explicaciones están bien, solo quería intentar dar una respuesta breve y directa a la pregunta que se me ocurrió.

Comprobación del desequilibrio de covariables en experimentos aleatorizados

Su segunda afirmación (sobre hipótesis nulas poco realistas) no es cierta cuando verificamos el equilibrio de covariables en experimentos aleatorios donde sabemos que la aleatorización se realizó correctamente. En este caso, sabemos que la hipótesis nula es cierta. Si obtenemos una diferencia significativa entre el tratamiento y el grupo de control en alguna covariable, después de controlar las comparaciones múltiples, por supuesto, entonces eso nos dice que obtuvimos un "mal empate" en la aleatorización y tal vez no deberíamos confiar en la estimación causal como mucho. Esto se debe a que podríamos pensar que nuestras estimaciones del efecto del tratamiento de esta aleatorización particular de "mal sorteo" están más lejos de los verdaderos efectos del tratamiento que las estimaciones obtenidas de un "buen sorteo".

Creo que este es un uso perfecto de los valores p. Utiliza la definición del valor p: la probabilidad de obtener un valor como o más extremo dada la hipótesis nula. Si el resultado es altamente improbable, de hecho obtuvimos un "mal empate".

Las tablas de balance / estadísticas también son comunes cuando se usan datos de observación para tratar de hacer inferencias causales (por ejemplo, emparejamiento, experimentos naturales). Aunque en estos casos, las tablas de balance están lejos de ser suficientes para justificar una etiqueta "causal" a las estimaciones.


fuente
No estoy de acuerdo con que este sea un uso perfecto (o incluso bueno) de los valores p. ¿Cómo define un "mal sorteo"?
mark999
2
@mark, está bien. Creo que puedo responder su última pregunta mientras Matt está fuera: por supuesto, en la muestra. Imagine un experimento aleatorio con 50 personas. Imagine que sucedió que las 25 personas del grupo A resultaron ser hombres y las 25 personas del grupo B resultaron ser mujeres. Es bastante obvio que esto puede arrojar serias dudas sobre las conclusiones del estudio; ese es un ejemplo de un "mal empate". Matt sugirió realizar una prueba de diferencias de género (covariable) entre A y B. No veo cómo la respuesta de Matt se puede interpretar de manera diferente. Podría decirse que no hay poblaciones aquí en absoluto.
ameba dice Reinstate Monica
1
@ mark999 Pero una prueba de diferencia entre el 25/12 y el 13/25 obviamente arrojará un alto valor p no significativo, por lo que no estoy seguro de cuál es su punto aquí. Matt sugirió realizar una prueba y considerar un valor p bajo como una señal de alerta. No hay bandera roja en tu ejemplo. Creo que me detendré aquí y dejaré que Matt continúe el diálogo si lo desea.
ameba dice Reinstate Monica
44
No. Consulte 'falacia de la prueba de equilibrio': gking.harvard.edu/files/matchse.pdf . Describe un caso en el que la estadística de prueba en sí misma puede estar bien (se utiliza como una medida de distancia para minimizar) pero un valor p no sentido.
conjugateprior
2
Para un examen más reciente de esto en psico y neurolingüística, hay una nueva preimpresión de arXiv . Cuando está deliberando manipulando el equilibrio, etc., no es un muestreo aleatorio e incluso si lo fuera, las pruebas responden a una pregunta inferencial diferente sobre el equilibrio en la población, no el equilibrio en la muestra.
Livius
2

El control de las tasas de error es similar al control de calidad en la producción. Un robot en una línea de producción tiene una regla para decidir que una pieza es defectuosa, lo que garantiza que no exceda una tasa específica de piezas defectuosas que pasan sin ser detectadas. Del mismo modo, una agencia que toma decisiones para la aprobación de medicamentos con base en valores P "honestos" tiene una manera de mantener la tasa de rechazos falsos en un nivel controlado, por definición a través de la construcción frecuente de pruebas a largo plazo. Aquí, "honesto" significa ausencia de sesgos incontrolados, selecciones ocultas, etc.

Sin embargo, ni el robot ni la agencia tienen una participación personal en ninguna droga en particular o una parte que pasa por el transportador de ensamblaje. Por otro lado, en ciencia, nosotros, como investigadores individuales, nos preocupamos más por la hipótesis particular que estudiamos, más que por la proporción de afirmaciones espurias en nuestra revista favorita a la que nos sometemos. Ni la magnitud del valor P ni los límites de un intervalo de confianza (IC) se refieren directamente a nuestra pregunta sobre la credibilidad de lo que informamos. Cuando construimos los límites de CI, deberíamos decir que el único significado de los dos números es que si otros científicos realizan el mismo tipo de cálculo de CI en sus estudios, se mantendrá el 95% o cualquier cobertura sobre varios estudios en su conjunto. .

Desde este punto de vista, me parece irónico que los valores P estén siendo "prohibidos" por las revistas, teniendo en cuenta que, en medio de la crisis de replicabilidad, son más valiosos para los editores de revistas que para los investigadores que envían sus documentos, como una forma práctica de mantener el tasa de hallazgos espurios reportados por un diario a raya, a la larga. Los valores P son buenos para filtrar, o como escribió IJ Good, son buenos para proteger el extremo posterior del estadístico, pero no tanto el extremo posterior del cliente.

PD: Soy un gran admirador de la idea de Benjamini y Hochberg de llevar la expectativa incondicional a través de los estudios con múltiples pruebas. Bajo el "nulo" global, el FDR "frecuente" todavía está controlado: los estudios con uno o más rechazos aparecen en una revista a una velocidad controlada, aunque, en este caso, cualquier estudio en el que se hayan realizado algunos rechazos tiene la proporción de falsos rechazos que es igual a uno.

DZ
fuente
1

Estoy de acuerdo con Matt en que los valores p son útiles cuando la hipótesis nula es verdadera.

El ejemplo más simple que se me ocurre es probar un generador de números aleatorios. Si el generador funciona correctamente, puede usar cualquier tamaño de muestra apropiado de las realizaciones y al probar el ajuste en muchas muestras, los valores p deben tener una distribución uniforme. Si lo hacen, esta es una buena evidencia para una implementación correcta. Si no lo hacen, sabes que has cometido un error en alguna parte.

Otras situaciones similares ocurren cuando se sabe que una variable estadística o aleatoria debe tener una distribución determinada (nuevamente, el contexto más obvio es la simulación). Si los valores p son uniformes, ha encontrado soporte para una implementación válida. Si no, sabes que tienes un problema en algún lugar de tu código.

Soakley
fuente
1

Puedo pensar en ejemplos en los que los valores p son útiles, en Experimental High Energy Physics. Ver Fig. 1 Este gráfico está tomado de este documento: Observación de una nueva partícula en la búsqueda del bosón de Higgs Modelo Estándar con el detector ATLAS en el LHC

5σH125

ingrese la descripción de la imagen aquí

Nicolas Gutierrez
fuente
1
Debe proporcionar más información sobre la trama, con antecedentes y cómo aborda la pregunta original. Esto no es suficiente información.
Greenparker
@Greenparker, trató de agregar algo de fondo en la trama.
Nicolas Gutierrez
±1σ