¿Cuál es el concepto estadístico más difícil de entender?

32

Esta es una pregunta similar a la de aquí , pero creo que merece la pena hacerla.

Pensé que lo pondría como titular, lo que creo que es uno de los más difíciles de entender.

La mía es la diferencia entre probabilidad y frecuencia . Uno está en el nivel de "conocimiento de la realidad" (probabilidad), mientras que el otro está en el nivel de "realidad misma" (frecuencia). Esto casi siempre me confunde si lo pienso demasiado.

Edwin Jaynes acuñó un término llamado "falacia de proyección mental" para describir la confusión de estas cosas.

¿Alguna idea sobre otros conceptos difíciles de entender?

probabilidad
fuente
(No sé lo suficiente como para poner esto como respuesta, por lo tanto, agrego un comentario). Siempre pensé que era extraño que PI apareciera en ecuaciones estadísticas. Quiero decir, ¿qué tiene que ver PI con las estadísticas? :)
Reinstate Monica - Goodbye SE
2
Estoy de acuerdo (en mi sorpresa): creo que es aparece en muchos análisis matemáticos. Solo una nota con la que puede escribir π con los comandos de Latex como \ pi encerrados dentro de $ signos. Uso la página wiki para obtener la sintaxis en.wikibooks.org/wiki/LaTeX/Mathematics . Otro truco es "hacer clic derecho" en una ecuación que vea en este sitio y seleccionar "mostrar fuente" para obtener los comandos que se utilizaron. ππ\pi
probabilidadislogica
@Wiki Si acepta que surge cuando pasa de medir la longitud de una línea recta a la longitud de un círculo, no veo por qué no aparecerá mientras se mide la probabilidad de caerse en un segmento para medir la probabilidad de caerse en un círculo? π
robin girard
@Wiki Siempre que tenga funciones trigonométricas (seno, coseno, tangente, etc.) corre el riesgo de que aparezca emergente. Y recuerde que siempre que deriva una función, en realidad está encontrando una tangente. Lo sorprendente es que π no aparece con más frecuencia. ππ
Carlos Accioly
@Carlos Sospecho que la prevalencia de se debe principalmente al uso de la métrica 2 , lo que lleva a n-esferas. En la misma línea, esperaría que sea e cuya prevalencia se deba al análisis. 2π2e
sesqu

Respuestas:

31

Por alguna razón, las personas tienen dificultades para comprender qué es realmente un valor p.

shabbychef
fuente
3
@shabbychef: La mayoría de la gente lo entiende de la peor manera posible, es decir, la probabilidad de cometer un error de Tipo I.
suncoolsu
2
Creo que eso se relaciona principalmente con la forma en que los valores p se explican en las clases (es decir, simplemente dando una definición rápida y sin especificar qué valores p NO son)
nico
Creo que esto tiene que ver principalmente con cómo se introduce. Para mí, fue un "complemento" para la prueba de hipótesis clásica, por lo que parece que es solo otra forma de hacer una prueba de hipótesis. El otro problema es que generalmente solo se enseña con respecto a una distribución normal, donde todo "funciona bien" (por ejemplo, el valor p es una medida de la evidencia en la prueba de una media normal). Generalizar el valor p no es fácil ya que no hay principios específicos para guiar la generalización (por ejemplo, no hay un acuerdo general sobre cómo un valor p debe variar con el tamaño de la muestra y las comparaciones múltiples)
probabilidadislogica
@shabbychef +1, aunque el estudiante a menudo tiene dificultades con los valores p (aproximadamente porque el concepto en las pruebas es un poco más sutil que un proceso de decisión binario y porque "invertir una función" no es fácil de entender). Cuando dice "por alguna razón", ¿quiere decir que no está claro por qué las personas tienen dificultades? PD: Si pudiera, trataría de hacer estadísticas en este sitio sobre la relación entre "ser una respuesta principal" y "hablar sobre el valor p" :). Incluso me pregunto si el concepto estadístico más difícil de entender puede tener el mayor voto (si es difícil de comprender ... :))
robin girard
1
@eduardo: sí, un valor p lo suficientemente pequeño es suficiente para arrojar dudas sobre la hipótesis nula: pero se calcula de forma completamente aislada a una alternativa. Usando solo los valores p, nunca puede "rechazar" formalmente , porque no se ha especificado ninguna alternativa . Si rechaza formalmente H 0 , también debe rechazar los cálculos que se basaron en el supuesto de que H 0 es verdadero, lo que significa que debe rechazar el cálculo del valor p derivado de este supuesto (se mete con su cabeza , pero es la única forma de razonar consistentemente ). H0H0H0
chanceislogic
23

Similar a la respuesta de shabbychef, es difícil entender el significado de un intervalo de confianza en las estadísticas frecuentistas. Creo que el mayor obstáculo es que un intervalo de confianza no responde la pregunta que nos gustaría responder. Nos gustaría saber, "¿cuál es la probabilidad de que el verdadero valor esté dentro de este intervalo en particular?" En cambio, solo podemos responder, "¿cuál es la probabilidad de que un intervalo elegido al azar creado de esta manera contenga el parámetro verdadero?" Esto último es obviamente menos satisfactorio.

Charlie
fuente
1
Cuanto más pienso en los intervalos de confianza, más difícil es para mí pensar qué tipo de pregunta pueden responder a un nivel conceptual que no se puede responder preguntando "la posibilidad de que un valor verdadero esté dentro de un intervalo, dado el estado de uno conocimiento". Si tuviera que preguntar "¿cuál es la probabilidad (condicional de mi información) de que el ingreso promedio en 2010 fue de entre 10,000 y 50,000?" No creo que la teoría de los intervalos de confianza pueda dar una respuesta a esta pregunta.
probabilidadislogica
21

¿Cuál es el significado de "grados de libertad"? ¿Qué tal si df no son números enteros?

revs usuario2954
fuente
13

La probabilidad condicional probablemente conduce a la mayoría de los errores en la experiencia cotidiana. Hay muchos conceptos más difíciles de entender, por supuesto, pero las personas generalmente no tienen que preocuparse por ellos, de los cuales no pueden escapar y es una fuente de desventura desenfrenada.

dmk38
fuente
+1; ¿podría agregar un ejemplo o dos, favorito o actual?
denis
1
Para empezar: P (usted tiene la enfermedad | la prueba es positiva)! = P (la prueba es positiva | tiene la enfermedad).
xmjx
9

Creo que muy pocos científicos entienden este punto básico: solo es posible interpretar los resultados de los análisis estadísticos al pie de la letra, si cada paso se planificó por adelantado. Específicamente:

  • El tamaño de la muestra debe seleccionarse con anticipación. No está bien seguir analizando los datos a medida que se agregan más sujetos, deteniéndose cuando los resultados se ven bien.
  • Cualquier método utilizado para normalizar los datos o excluir los valores atípicos también debe decidirse de antemano. No está bien analizar varios subconjuntos de datos hasta que encuentre resultados que le gusten.
  • Y finalmente, por supuesto, los métodos estadísticos deben decidirse de antemano. ¿No está bien analizar los datos a través de métodos paramétricos y no paramétricos y elegir los resultados que desee?

Los métodos exploratorios pueden ser útiles para, bueno, explorar. Pero entonces no puede dar la vuelta y ejecutar pruebas estadísticas regulares e interpretar los resultados de la manera habitual.

Harvey Motulsky
fuente
55
Creo que John Tukey podría estar en desacuerdo en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial
3
Estaría parcialmente en desacuerdo aquí. Creo que la advertencia que la gente pasa por alto es que las operaciones de acondicionamiento apropiadas son fáciles de ignorar para este tipo de problemas. Cada una de estas operaciones cambia las condiciones de la inferencia y, por lo tanto, cambian las condiciones de su aplicabilidad (y, por lo tanto, a su generalidad). Definitivamente, esto solo es aplicable al "análisis confirmatorio", donde se ha construido un modelo y una pregunta bien definidos. En la fase exploratoria, no busca responder preguntas definidas, más busca construir un modelo y proponer hipótesis para los datos.
probabilidadislogica
Edité un poco mi respuesta para tener en cuenta los comentarios de Dikran y la probabilidad lógica. Gracias.
Harvey Motulsky
1
Para mí, los "valores atípicos excluyentes" no son tan claramente incorrectos como implica su respuesta. Por ejemplo, es posible que solo le interesen las relaciones en un cierto rango de respuestas, y excluir los valores atípicos en realidad ayuda a este tipo de análisis. Por ejemplo, si desea modelar los ingresos de la "clase media", entonces es una buena idea excluir los valores atípicos super ricos y empobrecidos. Es sólo el atípicos dentro de su marco de la inferencia (por ejemplo, observaciones "extraña" la clase media) se aplican a sus comentarios
probabilityislogic
2
Finalmente, el verdadero problema con los problemas planteados en la respuesta inicial es que ellos (al menos parcialmente) invalidan los valores p. Si está interesado en cuantificar un efecto observado, uno debería poder hacer todo lo anterior con impunidad.
russellpierce
9

Lengua firmemente en la mejilla: para los frecuentistas, el concepto bayesiano de probabilidad; para los bayesianos, el concepto frecuentista de probabilidad. ; o)

Ambos tienen mérito, por supuesto, pero puede ser muy difícil entender por qué un marco es interesante / útil / válido si su comprensión del otro es demasiado firme. La validación cruzada es un buen remedio, ya que hacer preguntas y escuchar las respuestas es una buena manera de aprender.

Dikran Marsupial
fuente
2
Regla que uso para recordar: Usar probabilidades para predecir frecuencias. Una vez que se hayan observado las frecuencias, úselas para evaluar las probabilidades que asignó. Lo lamentablemente confuso es que, a menudo, la probabilidad que asigna es igual a la frecuencia que ha observado. Una cosa que siempre he encontrado extraña es ¿por qué los frecuentas incluso usan la palabra probabilidad? ¿No facilitaría la comprensión de sus conceptos si se utilizara la frase "la frecuencia de un evento" en lugar de "la probabilidad de un evento"?
chanceislogic
p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi
8

Desde mi experiencia personal, el concepto de probabilidad también puede causar bastante revuelo, especialmente para los no estadísticos. Como dice Wikipedia, a menudo se mezcla con el concepto de probabilidad, que no es exactamente correcto.

radek
fuente
6

¿Qué representan realmente las diferentes distribuciones, además de cómo se usan?

mariana más suave
fuente
3
Esta fue la pregunta que encontré más molesta después de las estadísticas 101. Me encontraría con muchas distribuciones sin motivación para ellas más allá de las "propiedades" que eran relevantes para los temas en cuestión. Tardó inaceptablemente largo descubrir qué representaba.
sesqu
1
El "pensamiento" de entropía máxima es un método que ayuda a comprender qué es una distribución, es decir, un estado de conocimiento (o una descripción de la incertidumbre sobre algo). Esta es la única definición que tiene sentido para mí en todas las situaciones
probabilidad
Ben Bolker ofrece una buena visión general de esto en la sección 'bestia de distribuciones' de Modelos y datos ecológicos en R
David LeBauer
5

Creo que la pregunta es interpretable de dos maneras, lo que dará respuestas muy diferentes:

1) Para las personas que estudian estadísticas, particularmente a un nivel relativamente avanzado, ¿cuál es el concepto más difícil de entender?

2) ¿Qué concepto estadístico es mal entendido por la mayoría de la gente?

Para 1) No sé la respuesta en absoluto. ¿Algo de la teoría de la medida, tal vez? ¿Algún tipo de integración? No lo sé.

Para 2) valor p, sin duda.

Peter Flom - Restablece a Monica
fuente
La teoría de la medida no es un campo de estadística ni difícil. Algunos tipos de integración son difíciles, pero, una vez más, eso no son estadísticas.
pyon
5

El intervalo de confianza en la tradición no bayesiana es difícil.

Shige
fuente
5

I think people miss the boat on pretty much everything the first time around. I think what most students don't understand is that they're usually estimating parameters based on samples. They don't know the difference between a sample statistic and a population parameter. If you beat these ideas into their head, the other stuff should follow a little bit easier. I'm sure most students don't understand the crux of the CLT either.

Adam
fuente