Los estadísticos utilizamos muchas palabras de maneras que son ligeramente diferentes de la forma en que los demás las usan. Esto causa muchos problemas cuando enseñamos o explicamos lo que estamos haciendo. Comenzaré una lista (y ahora agregaré algunas definiciones, por comentario):
- El poder es la capacidad de rechazar correctamente una hipótesis nula falsa. Por lo general, esto significa decir correctamente "algo está sucediendo".
- Sesgo: un estadístico está sesgado si es sistemáticamente diferente del parámetro de población asociado con él.
- Importancia: los resultados son estadísticamente significativos en algún porcentaje (a menudo 5%) en la siguiente situación: si la población de la que proviene la muestra tiene un verdadero efecto de 0, solo se produciría una estadística al menos tan extrema como la obtenida de la muestra 5% del tiempo
- Interacción: dos variables independientes interactúan si la relación entre la variable dependiente y una variable independiente es diferente en los diferentes niveles de la otra variable independiente
¡Pero tiene que haber muchos otros!
terminology
communication
Peter Flom
fuente
fuente
Respuestas:
"Significativo" es el más grande con el que me encuentro, porque tiene un significado común en el uso del inglés y ese significado surgirá en la discusión de los resultados de la investigación. Incluso me encuentro mezclando "significativo" para significar importante en la misma oración donde he hablado sobre resultados estadísticos.
De esa manera se encuentra la locura.
fuente
Sugeriría agregar Linear a la lista.
"Estoy un poco incómodo con su lenguaje, ya que temo que esta forma de usar la palabra" lineal "pueda alimentar el malentendido popular de que la razón por la cual la regresión lineal en la llamada regresión lineal es que se ajusta una línea. Las personas que piensan que entonces resulta confuso cuando un estadístico insiste en que se está haciendo una regresión lineal cuando se ajusta a una parábola o una onda sinusoidal, etc. "
Entonces, ¿qué significa la regresión lineal para un estadístico?
fuente
probabilidad
Me parece que la mayoría de los problemas asociados con la interpretación de las pruebas de hipótesis y los intervalos de confianza provienen de la aplicación de una definición bayesiana de "probabilidad" cuando el procedimiento se basa en uno frecuente. Por ejemplo, el valor p es la probabilidad de que la hipótesis nula sea verdadera, cuando AFAICS no se puede asociar ninguna probabilidad con la verdad de una hipótesis particular en un entorno frecuentista.
fuente
"Confianza"
Es muy difícil disuadir a los no estadísticos de que su intervalo de confianza no es (directamente) una declaración sobre la credibilidad de los diferentes valores de los parámetros.
Para tener confianza, en el significado técnico del término, necesitamos imaginar algún conjunto de experimentos repetidos, cada uno de los cuales calcula un intervalo de una manera predeterminada. Para tener un intervalo de confianza del 95%, el 95% de estos usos de la fórmula atrapará el parámetro relevante de interés.
(Por supuesto, hay situaciones en que las dos nociones concuerdan, aproximadamente o exactamente. Pero en general no lo hacen, y el acuerdo numérico no elimina el problema del mal uso de los términos técnicos).
fuente
"Probabilidad": es sinónimo de "probabilidad" en el habla cotidiana, pero en Estadística tiene un significado especial: es una función de los parámetros de un modelo estadístico, cuyo valor es la probabilidad del resultado observado suponiendo que los parámetros son iguales a los valores de los parámetros.
fuente
Error.
En estadística, un "error" es una desviación de un valor de datos real de la predicción de un modelo.
En la vida real, un error es un error o un error.
fuente
"Inferencia"
Otra parte importante sobre la inferencia es el teorema del límite central. Una vez que se da cuenta de que simplemente está tomando muestras de una población, aunque el muestreo es otra característica complicada similar a la inferencia, entonces comprende que incluso si la media de la muestra tiene un valor, ese valor no es necesariamente la misma media que en la población .
Quizás entendí relativamente poco su pregunta, pero una vez que alguien comprende la inferencia o las diferencias entre una muestra y la población, se les abre la totalidad de las estadísticas.
fuente
Para nosotros (o al menos para mí), la "aleatoriedad" de una "muestra" sugiere que es representativa de la "población".
Para otros, la "aleatoriedad" a veces implica que una persona / cosa es inusual.
fuente
Creo que uno debe distinguir entre términos que confunden al público y términos que confunden a los estadísticos. Las sugerencias anteriores son en su mayoría términos bien entendidos por los estadísticos y (posiblemente) mal entendidos por el público. Deseo agregar a la lista algunos términos que los estadísticos no entienden:
fuente
Ecológico, comúnmente usado para referirse a sistemas biológicos, pero también una falacia estadística. De Wikipedia:
Una falacia ecológica (o falacia de inferencia ecológica) es un error en la interpretación de los datos estadísticos en un estudio ecológico, en el que las inferencias sobre la naturaleza de individuos específicos se basan únicamente en estadísticas agregadas recopiladas para el grupo al que pertenecen esos individuos. Esta falacia supone que los miembros individuales de un grupo tienen las características promedio del grupo en general.
fuente
¿Es una "encuesta" un tipo de matemática ("muestreo de encuesta") o una hoja de papel ("cuestionario")?
No he realizado una encuesta sobre esto, pero sospecho que gran parte del público considera que una "encuesta" es lo último. Sospecho además que no piensan en lo primero.
fuente
"Cargas", "Coeficientes" y "Pesos"; cuando se habla del análisis de componentes principales.
Por lo general, encuentro que las personas son bastante ad-hoc cuando las usan, empleándolas indistintamente sin definir primero explícitamente lo que significan y, de hecho, he encontrado documentos que se refieren a "vectores de carga" y a veces se refieren a las PC y otras veces a los "pesos" asociado con una PC específica.
Probablemente el hecho de que la excelente referencia de Jollifee sobre los Componentes Principales dice al final de la sección 1.1 "Algunos autores distinguen entre los términos 'cargas' y 'coeficientes', dependiendo de la restricción de normalización utilizada, pero se usarán indistintamente en este libro". solo hizo que las personas pensaran que tenían un pase gratis para mezclar y combinar la terminología a su gusto ...
fuente
Modelo aditivo. Todavía no estoy seguro de lo que esto significa. Creo que se refiere a un modelo sin términos de interacción. Pero luego me encontraré con un artículo donde lo están usando para referirse a otra cosa, es decir, un modelo de spline.
fuente
Uno de los términos que encuentro más confusos es la "matriz de confusión". Por supuesto, el término utilizado en sí mismo es confuso, no el concepto.
Traté de rastrear la historia del término y también es bastante interesante. La matriz de confusión fue inventada en 1904 por ( http://en.wikipedia.org/wiki/Karl_Pearson ). Usó el término http://en.wikipedia.org/wiki/Contingency_table . Apareció en Karl Pearson, FRS (1904). Contribuciones matemáticas a la teoría de la evolución (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf
Durante War World 2, h ttps: //en.wikipedia.org/wiki/Detection_theory se desarrolló como una investigación de las relaciones entre estímulo y respuestas. La matriz de confusión se utilizó allí.
Debido a la teoría de detección, el término se utilizó como psicología. A partir de ahí, el término llegó al aprendizaje automático.
Parece que aunque el concepto fue inventado en las estadísticas, un archivo muy relacionado con el aprendizaje automático, alcanzó el aprendizaje automático después de un desvío durante un período de 100 años.
Para algunas referencias del uso del término ver: ¿Cuál es el origen del término matriz de confusión?
fuente
"Estadística"
Para el público en general, un sustituto de "ahora estoy a punto de mentirte y hablar de una manera que no entiendes".
fuente