Estoy intentando escribir una serie de publicaciones de blog sobre valores p y pensé que sería interesante volver a donde comenzó todo, que parece ser el artículo de Pearson de 1900. Si está familiarizado con ese documento, recordará que esto cubre las pruebas de bondad de ajuste.
Pearson es un poco flojo con su lenguaje cuando se trata de valores p. Repetidamente usa las "probabilidades" cuando describe cómo interpretar su valor p. Por ejemplo, en la p.168 cuando habla de los resultados de la repetición de 12 dados, dice " ... lo que nos lleva a P = .0000016, o las probabilidades son 62,499 a 1 en contra de un sistema de desviación aleatorio selección. Con tales probabilidades sería razonable concluir que los dados muestran un sesgo hacia los puntos más altos " .
En este artículo, se refiere a trabajos anteriores, incluido un libro de 1891 sobre mínimos cuadrados de Merriman.
Pero Pearson presenta el cálculo de los valores p (prueba de bondad de ajuste wrt chi-cuadrado).
¿Fue Pearson la primera persona en concebir los valores p? Cuando hago una búsqueda de valores p, se menciona a Fisher, y su trabajo fue en la década de 1920.
Editado: y un agradecimiento por la mención de Laplace: no parecía abordar la hipótesis nula (Pearson parece hacerlo implícitamente, aunque nunca usó ese término en su artículo de 1900). Pearson analizó las pruebas de bondad de ajuste de: suponiendo que los recuentos se derivan de un proceso imparcial, ¿cuál es la probabilidad de que los recuentos observados (y los recuentos más desviados) surjan de la distribución asumida?
Su tratamiento de las probabilidades / probabilidades (convierte las probabilidades en probabilidades) sugiere que está trabajando con una idea implícita de la hipótesis nula. De manera crucial, también menciona que la probabilidad que surge del valor x ^ 2 muestra las probabilidades "contra un sistema de desviaciones como improbable o más improbable que este", lenguaje que reconocemos ahora, con respecto a sus valores p calculados.
¿Arbuthnot fue tan lejos?
Siéntase libre de poner sus comentarios como respuestas. Sería bueno ver una discusión.
fuente
Respuestas:
Jacob Bernoulli (~ 1700) - John Arbuthnot (1710) - Nicolaus Bernoulli (1710s) - Abraham de Moivre (1718)
El caso de Arbuthnot 1, véase la explicación en la nota a continuación , también se puede leer en Doctrine of Chance (1718) de de Moivre de la página 251-254, que amplía aún más esta línea de pensamiento.
De Moivre hace dos pasos / avances:
La aproximación normal de una distribución de Bernoulli, que ayuda a calcular fácilmente las probabilidades de que los resultados estén dentro o fuera de un cierto rango. En la sección anterior al ejemplo sobre el caso de Arbuthnot, de Moivre escribe sobre su aproximación (ahora llamada distribución gaussiana / normal) para la distribución de Bernoulli. Esta aproximación permite calcular fácilmente un valor p (que Arbuthnot no pudo hacer).
Generalización del argumento de Arbuthnot. Menciona que "este método de razonamiento también puede aplicarse de manera útil en otras consultas muy interesantes". (lo que puede dar crédito parcial a de Moivre por ver la aplicabilidad general del argumento)
Según de Moivre, Jacob Bernoulli escribió sobre este problema en su Ars Conjectandi . De Moivre nombra esto en inglés "Asignando los límites dentro de los cuales, por la repetición de experimentos, la probabilidad de un evento puede acercarse indefinidamente a una probabilidad dada", pero el texto original de Bernouilli está en latín. No sé suficiente latín para saber si Bernoulli estaba escribiendo sobre un concepto como el valor p o más como la ley de los grandes números. Es interesante notar que Bernouilli afirma haber tenido estas ideas durante 20 años (y también el trabajo 1713 se publicó después de su muerte en 1705, por lo que parece preceder a la fecha 1710 mencionada en los comentarios de @Glen_b para Arbuthnot).
Una fuente de inspiración para de Moivre fue Nicolaus Bernouilli, quien en 1712/1713 hizo los cálculos para que la probabilidad de que el número de niños nacidos no sea menor a 7037 y no mayor a 7363, cuando 14000 es el número total de niños nacidos y la probabilidad para un niño es 18/35.
(Los números para este problema se basaron en 80 años de estadísticas de Londres. Escribió sobre esto en cartas a Pierre Raymond de Montmort publicadas en la segunda edición (1713) del Ensayo de análisis de Montmort sobre el peligro de Montmort ).
Los cálculos, que no seguí del todo, arrojaron una probabilidad de 43.58 a 1. (Usando una computadora que suma todos los términos probabilidad de un binomio desde 7037 hasta 7363 obtengo 175: 1, así que puedo haber malinterpretado su trabajo / cálculo. )
1: John Arbuthnot escribió sobre este caso en Un argumento a favor de la providencia divina, tomado de la regularidad constante observada en los nacimientos de ambos sexos (1710).
Explicación del argumento de Arbuthnot: la relación niño / niña es notablemente diferente de la del medio. No calcula exactamente el valor p (que no es su objetivo), pero usa la probabilidad de obtener niños> niñas 82 veces seguidas argumentando que este número sería aún más pequeño si consideras que uno podría tomar un rango más pequeño y que sucedió más que solo en Londres y 82 años, llega a la conclusión de que es muy poco probable y que esto debe ser una providencia (divina) para contrarrestar la mayor mortalidad entre los hombres y finalmente terminar con hombres y mujeres iguales.1282∼14836000000000000000000000
Escrito por StackExchangeStrike
fuente
Tengo tres enlaces / argumentos de apoyo que respaldan la fecha ~ 1600-1650 para estadísticas desarrolladas formalmente y mucho antes simplemente para el uso de probabilidades.
Si acepta la prueba de hipótesis como base, anterior a la probabilidad, entonces el Diccionario de Etimología en línea ofrece esto:
Wiktionary ofrece:
Sobre probabilidad y estadísticas, Wikipedia ofrece:
De "Wolfram, Stephen (2002). Un nuevo tipo de ciencia. Wolfram Media, Inc. p. 1082".
Otras fuentes:
La sección "Orígenes históricos" establece:
[1] Arbuthnott J. Un argumento a favor de la divina Providencia, tomado de la regularidad constante observada en los nacimientos de ambos sexos. Phil Trans 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011 publicado el 1 de enero de 1710
Tenemos más discusión en nuestro sitio de SE con respecto al método de Fischer vs. Neyman-Pearson-Wald aquí: ¿Es el "híbrido" entre los enfoques de Fisher y Neyman-Pearson para las pruebas estadísticas realmente una "mezcla incoherente"? .
Un artículo en el Journal of Epidemiology and Biostatistics (2001) vol. 6, N ° 2, 193–204 de Senn, titulado: "Opinión: ¿Dos hurras por los valores P?" explica esto en la introducción:
Referencias
La Asociación Estadounidense de Estadística tiene una página web sobre Historia de la Estadística que, junto con esta información, tiene un póster (reproducido en parte a continuación) titulado "Cronología de las estadísticas".
AD 2: Sobrevive evidencia de un censo completado durante la dinastía Han.
1500: Girolamo Cardano calcula las probabilidades de diferentes tiradas de dados.
1600: Edmund Halley relaciona la tasa de mortalidad con la edad y desarrolla tablas de mortalidad.
1700: Thomas Jefferson dirige el primer censo de EE. UU.
1839: se forma la Asociación Americana de Estadística.
1894: Karl Pearson introduce el término "desviación estándar".
1935: RA Fisher publica Diseño de experimentos.
En la sección "Historia" de la página web de Wikipedia " Ley de grandes números " explica:
No, probablemente no.
En " The ASA's Statement on p-Values: Context, Process, and Purpose " (09 de junio de 2016) por Wasserstein y Lazar, doi: 10.1080 / 00031305.2016.1154108 hay una declaración oficial sobre la definición del valor p (que no duda no acordada por todas las disciplinas que utilizan o rechazan los valores p) que dice:
" . ¿Qué es un valor p?
Informalmente, un valor p es la probabilidad bajo un modelo estadístico especificado de que un resumen estadístico de los datos (p. Ej., La diferencia de medias muestrales entre dos grupos comparados) sería igual o más extremo que su valor observado.
3. Principios
...
6. Por sí mismo, un valor p no proporciona una buena medida de evidencia con respecto a un modelo o hipótesis.
Los investigadores deben reconocer que un valor p sin contexto u otra evidencia proporciona información limitada. Por ejemplo, un valor p cercano a 0.05 tomado solo ofrece evidencia débil contra la hipótesis nula. Del mismo modo, un valor p relativamente grande no implica evidencia a favor de la hipótesis nula; muchas otras hipótesis pueden ser igualmente o más consistentes con los datos observados. Por estas razones, el análisis de datos no debe terminar con el cálculo de un valor p cuando otros enfoques son apropiados y factibles ".
El rechazo de la hipótesis nula probablemente ocurrió mucho antes que Pearson.
La página de Wikipedia sobre los primeros ejemplos de estados de prueba de hipótesis nulas :
Elecciones tempranas de hipótesis nula
Paul Meehl ha argumentado que la importancia epistemológica de la elección de la hipótesis nula no se ha reconocido en gran medida. Cuando la teoría nula es predicha por la teoría, un experimento más preciso será una prueba más severa de la teoría subyacente. Cuando la hipótesis nula se predetermina a "sin diferencia" o "sin efecto", un experimento más preciso es una prueba menos severa de la teoría que motivó la realización del experimento. Por lo tanto, un examen de los orígenes de esta última práctica puede ser útil:
1778: Pierre Laplace compara las tasas de natalidad de niños y niñas en múltiples ciudades europeas. Afirma: "es natural concluir que estas posibilidades están casi en la misma proporción". Así, la hipótesis nula de Laplace de que las tasas de natalidad de niños y niñas deberían ser iguales dada la "sabiduría convencional".
1900: Karl Pearson desarrolla la prueba de ji cuadrado para determinar "si una forma dada de curva de frecuencia describirá efectivamente las muestras extraídas de una población dada". Por lo tanto, la hipótesis nula es que una población se describe mediante alguna distribución predicha por la teoría. Utiliza como ejemplo los números de cinco y seis en los datos de lanzamiento de dados de Weldon.
1904: Karl Pearson desarrolla el concepto de "contingencia" para determinar si los resultados son independientes de un factor categórico dado. Aquí la hipótesis nula es por defecto que dos cosas no están relacionadas (por ejemplo, formación de cicatrices y tasas de mortalidad por viruela). La hipótesis nula en este caso ya no se predice por la teoría o la sabiduría convencional, sino que es el principio de indiferencia lo que lleva a Fisher y a otros a descartar el uso de "probabilidades inversas".
A pesar de que se acredita a cualquier persona por rechazar una hipótesis nula, no creo que sea razonable etiquetarla como " descubrir el escepticismo basado en una posición matemática débil".
fuente