Términos estadísticos más confusos

47

Los estadísticos utilizamos muchas palabras de maneras que son ligeramente diferentes de la forma en que los demás las usan. Esto causa muchos problemas cuando enseñamos o explicamos lo que estamos haciendo. Comenzaré una lista (y ahora agregaré algunas definiciones, por comentario):

  • El poder es la capacidad de rechazar correctamente una hipótesis nula falsa. Por lo general, esto significa decir correctamente "algo está sucediendo".
  • Sesgo: un estadístico está sesgado si es sistemáticamente diferente del parámetro de población asociado con él.
  • Importancia: los resultados son estadísticamente significativos en algún porcentaje (a menudo 5%) en la siguiente situación: si la población de la que proviene la muestra tiene un verdadero efecto de 0, solo se produciría una estadística al menos tan extrema como la obtenida de la muestra 5% del tiempo
  • Interacción: dos variables independientes interactúan si la relación entre la variable dependiente y una variable independiente es diferente en los diferentes niveles de la otra variable independiente

¡Pero tiene que haber muchos otros!

Peter Flom
fuente
55
Sugeriría que las personas agreguen un mayor contexto a sus respuestas también. Los ejemplos pueden ser la misma palabra utilizada de manera diferente en diferentes campos (efectos fijos Gelman, 2005 ) o palabras que tienen diferentes significados en diferentes contextos (significación versus significación estadística Bushway et al., 2006 ).
Andy W
55
Sería bueno que los que respondieran pudieran explicar en una o dos oraciones qué significa realmente el término "técnico", o qué podría hacer que se perciba que tiene un significado diferente.
chl
Completaré mi respuesta de acuerdo con sus comentarios más adelante ;-)
ocram
1
... y "correlación"!
Stéphane Laurent
1
Para "muestra", vea los comentarios en stats.stackexchange.com/questions/20945/… .
whuber

Respuestas:

21

"Significativo" es el más grande con el que me encuentro, porque tiene un significado común en el uso del inglés y ese significado surgirá en la discusión de los resultados de la investigación. Incluso me encuentro mezclando "significativo" para significar importante en la misma oración donde he hablado sobre resultados estadísticos.

De esa manera se encuentra la locura.

Fomite
fuente
Bien, pero no hay mejor palabra para "Estoy bastante seguro de que es significativo, pero no he hecho ninguna prueba al respecto, y no lo haré, porque es obvio / no se puede hacer / lo que sea"
naught101
17

Sugeriría agregar Linear a la lista.

YXYY^=aX+babE[(YaXb)2]

"Estoy un poco incómodo con su lenguaje, ya que temo que esta forma de usar la palabra" lineal "pueda alimentar el malentendido popular de que la razón por la cual la regresión lineal en la llamada regresión lineal es que se ajusta una línea. Las personas que piensan que entonces resulta confuso cuando un estadístico insiste en que se está haciendo una regresión lineal cuando se ajusta a una parábola o una onda sinusoidal, etc. "

Entonces, ¿qué significa la regresión lineal para un estadístico?

Dilip Sarwate
fuente
55
Pregunta relacionada en el sitio en referencia a esta respuesta, ¿Qué significa lineal en regresión lineal?
Andy W
1
@AndyW Entonces, ¿dirías que Linear pertenece a la lista que Peter Flom comenzó o no?
Dilip Sarwate
1
Sí, estoy de acuerdo en que se ajusta a la factura de esta lista. (+1)
Andy W
44
Encaja en la lista, pero por una razón inusual: el significado del término "lineal" está bien establecido y se usa de manera consistente en muchos campos matemáticamente orientados. La posible confusión se refiere a qué parte de la fórmula es lineal.
whuber
¿Puedes dar un ejemplo de cómo encajas en una parábola y aún llamarlo modelo lineal?
oneloop
14

probabilidad

Me parece que la mayoría de los problemas asociados con la interpretación de las pruebas de hipótesis y los intervalos de confianza provienen de la aplicación de una definición bayesiana de "probabilidad" cuando el procedimiento se basa en uno frecuente. Por ejemplo, el valor p es la probabilidad de que la hipótesis nula sea verdadera, cuando AFAICS no se puede asociar ninguna probabilidad con la verdad de una hipótesis particular en un entorno frecuentista.

Dikran Marsupial
fuente
44
Parece que la misma consideración se aplicaría para aquellos que están acostumbrados a decir que el parámetro (verdadero) tiene un 95% de posibilidades de estar entre xx y xx, cuando se habla / interpreta los intervalos de confianza.
chl
1
¡si, absolutamente!
Dikran Marsupial
1
+1 Sin embargo, expresaría tu última oración de manera ligeramente diferente. Dentro del ajuste más frecuente, la probabilidad de que la hipótesis nula sea verdadera es 1 o 0, pero no sabe cuál . (Estrictamente hablando, esto no es del todo correcto, porque la 'probabilidad' es una frecuencia relativa a largo plazo y la 'frecuencia a largo plazo' realmente no se aplica. Sin embargo, cuando se formula de esta manera, las personas pueden entender lo que se dice / cómo entendemos la situación en la que nos encontramos. Por ejemplo, las personas se dan cuenta de que no se puede usar el valor p de la hipótesis nula como la probabilidad de que la hipótesis nula sea verdadera.)
gung - Reincorporar a Monica
2
"porque 'probabilidad' es una frecuencia relativa a largo plazo" Muchos probabilistas disputarán vehementemente esa declaración
Dilip Sarwate
14

"Confianza"

Es muy difícil disuadir a los no estadísticos de que su intervalo de confianza no es (directamente) una declaración sobre la credibilidad de los diferentes valores de los parámetros.

Para tener confianza, en el significado técnico del término, necesitamos imaginar algún conjunto de experimentos repetidos, cada uno de los cuales calcula un intervalo de una manera predeterminada. Para tener un intervalo de confianza del 95%, el 95% de estos usos de la fórmula atrapará el parámetro relevante de interés.

ab

(Por supuesto, hay situaciones en que las dos nociones concuerdan, aproximadamente o exactamente. Pero en general no lo hacen, y el acuerdo numérico no elimina el problema del mal uso de los términos técnicos).

huésped
fuente
10

"Probabilidad": es sinónimo de "probabilidad" en el habla cotidiana, pero en Estadística tiene un significado especial: es una función de los parámetros de un modelo estadístico, cuyo valor es la probabilidad del resultado observado suponiendo que los parámetros son iguales a los valores de los parámetros.

xuexue
fuente
8

Error.

En estadística, un "error" es una desviación de un valor de datos real de la predicción de un modelo.

En la vida real, un error es un error o un error.

Harvey Motulsky
fuente
¿No es un error ortográfico solo una desviación del valor real (previsto) del medio de comunicación? Realmente no veo cómo esta es una palabra diferente, es solo que se usa en un contexto diferente (pero no conflictivo). Me resulta difícil creer que sería tan confuso para alguien nuevo en el campo.
naught101
2
Una razón por la cual un valor puede diferir de una predicción es que el experimentador cometió un error. Eso es como un error de ortografía. Pero, ¿por qué su peso es diferente del peso promedio de todas las personas de su sexo y edad? ¿Por qué su ingreso es diferente al ingreso promedio? En estadística, esta desviación de una media es un "error" pero no es un error, solo una variación.
Harvey Motulsky
Es cierto, pero depende de cómo lo mires, creo. Si observa la ortografía de una palabra en una muestra de una escuela primaria, obtendrá variaciones, causadas por humanos, sí, pero tampoco por el experimentador. Podrías mirar lo mismo sobre escribir en inglés de diferentes edades. Creo que encontrarías que el inglés temprano tenía una variabilidad mucho mayor :)
naught101
@HarveyMotulsky: la química analítica utiliza el error en ambos sentidos. Hablamos de error sistemático, error aleatorio y errores graves. Libro de texto: "se pueden evitar errores graves".
cbeleites apoya a Mónica
8

"Inferencia"

βb

Otra parte importante sobre la inferencia es el teorema del límite central. Una vez que se da cuenta de que simplemente está tomando muestras de una población, aunque el muestreo es otra característica complicada similar a la inferencia, entonces comprende que incluso si la media de la muestra tiene un valor, ese valor no es necesariamente la misma media que en la población .

Quizás entendí relativamente poco su pregunta, pero una vez que alguien comprende la inferencia o las diferencias entre una muestra y la población, se les abre la totalidad de las estadísticas.

Adam
fuente
7

Para nosotros (o al menos para mí), la "aleatoriedad" de una "muestra" sugiere que es representativa de la "población".

Para otros, la "aleatoriedad" a veces implica que una persona / cosa es inusual.

Thomas Levine
fuente
1
No me he encontrado con esa confusión sobre "aleatoriedad". Pero si es así, entonces claramente existe.
Peter Flom - Restablece a Monica
3
Más precisamente, que ha existido
Thomas Levine
1
El último uso de "aleatorio" me parece bastante reciente. Me parece un poco molesto por esa razón (solo hace que las estadísticas sean más difíciles de entender para las personas). Es aún más molesto cuando escucho a mí mismo usando en ese sentido ..
naught101
5

Creo que uno debe distinguir entre términos que confunden al público y términos que confunden a los estadísticos. Las sugerencias anteriores son en su mayoría términos bien entendidos por los estadísticos y (posiblemente) mal entendidos por el público. Deseo agregar a la lista algunos términos que los estadísticos no entienden:

  • Bayesiano: Originalmente referido a lo que ahora se conoce como Bayes subjetivo (también conocido como epistémico, De-Finetti). Hoy el término se usará cada vez que aparezca la regla de Bayes, rara vez en el contexto de creencias subjetivas, lo que se considera teoría de la decisión.
  • Bayes empíricos: originalmente se refería a una configuración frecuentista con un previo no paramétrico . Hoy en día, normalmente significará que los parámetros del parámetro paramétrico (objetivo) anterior se estiman y no se conocen a priori. Es decir, lo que una vez se conoció como la probabilidad máxima de tipo II.
  • No paramétrico: a veces se refiere a "modelo libre". A veces a "distribución gratuita". Se ha vuelto prácticamente poco informativo en los días en que los modelos "paramétricos" podrían incluir millones de parámetros.
  • Error tipo III: a veces se refiere a un error de signo. En algún momento se refiere a una especificación errónea del modelo.
JohnRos
fuente
Cuando pregunté, tenía la intención de "términos confusos para el público en general", pero ciertamente vale la pena incluir términos confusos para los estadísticos
Peter Flom - Restablecer a Monica
Esto probablemente debería dividirse en respuestas separadas.
naught101
4

Ecológico, comúnmente usado para referirse a sistemas biológicos, pero también una falacia estadística. De Wikipedia:

Una falacia ecológica (o falacia de inferencia ecológica) es un error en la interpretación de los datos estadísticos en un estudio ecológico, en el que las inferencias sobre la naturaleza de individuos específicos se basan únicamente en estadísticas agregadas recopiladas para el grupo al que pertenecen esos individuos. Esta falacia supone que los miembros individuales de un grupo tienen las características promedio del grupo en general.

zbicyclist
fuente
3

¿Es una "encuesta" un tipo de matemática ("muestreo de encuesta") o una hoja de papel ("cuestionario")?

No he realizado una encuesta sobre esto, pero sospecho que gran parte del público considera que una "encuesta" es lo último. Sospecho además que no piensan en lo primero.

Thomas Levine
fuente
2
¿No son las encuestas realizadas por topógrafos? ;)
zbicyclist
3

"Cargas", "Coeficientes" y "Pesos"; cuando se habla del análisis de componentes principales.

Por lo general, encuentro que las personas son bastante ad-hoc cuando las usan, empleándolas indistintamente sin definir primero explícitamente lo que significan y, de hecho, he encontrado documentos que se refieren a "vectores de carga" y a veces se refieren a las PC y otras veces a los "pesos" asociado con una PC específica.

Probablemente el hecho de que la excelente referencia de Jollifee sobre los Componentes Principales dice al final de la sección 1.1 "Algunos autores distinguen entre los términos 'cargas' y 'coeficientes', dependiendo de la restricción de normalización utilizada, pero se usarán indistintamente en este libro". solo hizo que las personas pensaran que tenían un pase gratis para mezclar y combinar la terminología a su gusto ...

usεr11852 dice Reinstate Monic
fuente
1

Modelo aditivo. Todavía no estoy seguro de lo que esto significa. Creo que se refiere a un modelo sin términos de interacción. Pero luego me encontraré con un artículo donde lo están usando para referirse a otra cosa, es decir, un modelo de spline.

Cañada
fuente
0

Uno de los términos que encuentro más confusos es la "matriz de confusión". Por supuesto, el término utilizado en sí mismo es confuso, no el concepto.

Traté de rastrear la historia del término y también es bastante interesante. La matriz de confusión fue inventada en 1904 por ( http://en.wikipedia.org/wiki/Karl_Pearson ). Usó el término http://en.wikipedia.org/wiki/Contingency_table . Apareció en Karl Pearson, FRS (1904). Contribuciones matemáticas a la teoría de la evolución (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Durante War World 2, h ttps: //en.wikipedia.org/wiki/Detection_theory se desarrolló como una investigación de las relaciones entre estímulo y respuestas. La matriz de confusión se utilizó allí.

Debido a la teoría de detección, el término se utilizó como psicología. A partir de ahí, el término llegó al aprendizaje automático.

Parece que aunque el concepto fue inventado en las estadísticas, un archivo muy relacionado con el aprendizaje automático, alcanzó el aprendizaje automático después de un desvío durante un período de 100 años.

Para algunas referencias del uso del término ver: ¿Cuál es el origen del término matriz de confusión?

revs DaL
fuente
-4

"Estadística"

Para el público en general, un sustituto de "ahora estoy a punto de mentirte y hablar de una manera que no entiendes".

John
fuente