Las estadísticas están en todas partes; Sin embargo, el uso común de términos estadísticos a menudo no está claro.
Los términos probabilidad y probabilidades se usan de manera intercambiable en el inglés común a pesar de sus expresiones matemáticas bien definidas y diferentes.
No separar el término probabilidad de probabilidad habitualmente confunde a los médicos que intentan cuantificar la probabilidad de cáncer de seno dada una mamografía positiva, “Oh, qué tontería. No puedo hacer esto Deberías probar a mi hija; ella está estudiando medicina ".
Igualmente extendido es el uso de correlación en lugar de asociación . O correlación que implica causalidad .
En el famoso documental de Al Gore An Inconvenient Truth , una diapositiva ilustra la correlación del núcleo de hielo de y las temperaturas, dejando el trabajo más técnico para probar la causalidad de la discusión:
PREGUNTA: ¿Qué términos estadísticos plantean problemas de interpretación cuando se usan sin rigor matemático y, por lo tanto, vale la pena corregirlos?
fuente
Respuestas:
Puede ser inútil luchar contra los cambios en el lenguaje. Pero
parámetro no significa variable
En las estadísticas clásicas, que en este caso comienzan precisamente con RA Fisher, que utilizó por primera vez el término con este significado, un parámetro es una constante desconocida para estimar, por ejemplo, una media o correlación de la población. En matemáticas, hay significados relacionados pero no idénticos, como cuando se da una curva paramétricamente. En muchas ciencias, parámetro es solo otra palabra para una medida (un término denso con significado matemático), propiedad o variable, por ejemplo, longitud o conductividad o porosidad o virtud, según sea el caso. Naturalmente, la longitud o virtud de un individuo es desconocida antes de que se mida. pero las personas con mentalidad estadística pueden confundirse por su uso para un conjunto de tales mediciones. En lenguaje ordinario o vulgar, parámetros(casi siempre en plural) a menudo significa los límites de algo, por ejemplo, una relación personal o una política política, tal vez derivada de una confusión original con el perímetro . Con alta probabilidad previa, se presume que los bayesianos hablarán por sí mismos en sus propios usos (agradecimiento a @conjugateprior).
sesgado no significa sesgado
Durante un siglo o más, la asimetría ha tenido un sentido estadístico específico de referirse a la asimetría de las distribuciones, ya sea evaluadas gráficamente, medidas numéricamente o presuntamente teóricamente como una cuestión de fe o esperanza. Durante mucho más tiempo, o así se puede suponer, el sesgo ha significado estar equivocado en promedio, lo que, siempre que sepamos la verdad, lo que significa un valor verdadero o correcto, puede cuantificarse como un error sistemático. El sesgo en el lenguaje ordinario tiene un sentido común de deformarse o distorsionarse, y por lo tanto de ser incorrecto, incorrecto y también sesgado. Ese sentido (hasta donde he notado, solo recientemente) ha comenzado a filtrarse nuevamente en las discusiones estadísticas, de modo que el significado original de asimetría está en peligro de ser borroso o sumergido.
correlación no significa acuerdo
La correlación ha atraído varios sentidos precisos en las estadísticas, que tienen en común una idea de una relación bivariada perfecta en un sentido preciso: los casos principales son la relación lineal y monótona. A menudo se diluye, incluso en discusiones estadísticas, para significar casi cualquier tipo de relación o asociación. Lo que la correlación no significa, necesariamente, es acuerdo: por lo tanto,y=a+bx implica una correlación de Pearson de 1 o −1 siempre que b≠0 , pero el acuerdo y=x requiere la condición muy estricta a=0,b=1 .
único no significa distinto
Es bastante común hablar de los valores distintos de los datos como únicos , pero los únicos se conservan idealmente mejor como el significado que ocurre una sola vez. Mi propia suposición es que parte de la culpa proviene de la utilidad Unix [sic]
uniq
y sus imitadores, que reducen los valores posiblemente repetidos a un conjunto en el que cada valor es realmente único. El uso, en esta suposición, combina la entrada y la salida de un programa. (Por el contrario, si hablamos de duplicados en los datos, rara vez nos restringimos a dobles tonos que ocurren precisamente dos veces. El término se replicatendría más sentido lingüísticamente pero se ha adelantado para la replicación deliberada de controles en experimentos; los valores de respuesta resultantes generalmente no son del todo idénticos, lo cual es gran parte del punto).las muestras rara vez se repiten
En estadística, una muestra incluye varios valores, y el muestreo repetido es una gran virtud teórica, pero rara vez se practica, excepto por simulación, que es nuestro término habitual para cualquier tipo de falsificación en silico . En muchas ciencias, una muestra es un solo objeto, que consiste en un bulto, trozo o porción de agua, tierra, sedimento, roca, sangre, tejido u otras sustancias que varían de atractivas a benignas o asquerosas; lejos de ser excepcional, tomar muchas muestras puede ser esencial para cualquier análisis serio. Aquí la terminología de cada campo tiene perfecto sentido para su gente, pero a veces se necesita traducción.
error generalmente no significa error; Como señaló Harold Jeffreys, el sentido primario es errático, no erróneo.
Sin embargo, debemos tener cuidado con nuestros propios pecados o peculiaridades de la terminología:
la regresión no va hacia atrás
estacionario no significa inmóvil o fijo
la confianza no tiene nada que ver con el estado mental o psicológico de nadie
la importancia solo a veces tiene su significado cotidiano
exacto es a menudo un término honorífico, que se refiere a una solución o cálculo convenientemente manejable en lugar de uno apropiado para el problema
distribuciones sesgadas a la derecha para muchos se ven sesgadas a la izquierda, y viceversa
el lognormal se llama así porque es una normal exponencial
pero lognormal es más normal que lo normal
el gaussiano fue descubierto por De Moivre
Poisson no descubrió el Poisson , y mucho menos la regresión de Poisson
el bootstrap no te ayudará con tu calzado
la navaja no corta
la curtosis no es una afección médica
las parcelas de tallo y hojas no se refieren a plantas
una variable ficticia es útil, no inútil o estúpida
¿Quién en la Tierra (o en cualquier otro lugar) piensa que la heterocedasticidad es realmente un término preferible sobre la variabilidad desigual ?
robusto ahora tiene al menos dos significados técnicos principales para diferentes grupos, ninguno de los cuales inhibe su uso frecuente, incluso en discusiones técnicas, para significar simplemente algo así como "se afirma que se comporta bien"
IV ahora tiene al menos dos significados principales para diferentes grupos
factor ahora tiene al menos dos significados principales para diferentes grupos
normalizar y estandarizar tienen innumerables significados (realmente necesitamos estandarizar allí)
versus describir un gráfico significa variable vertical versus variable horizontal , a menos que signifique lo contrario
y (por último, pero no menos importante, para acuñar una frase) las estadísticas tienen al menos tres significados principales.
Notas:
A pesar de cualquier apariencia de lo contrario, creo que esta es una buena y seria pregunta.
Cambio de modas. Bien entrado el siglo veinte, parece que muchas personas (sin nombres, sin taladro, pero podría mencionarse a Karl Pearson) solo podían inventar términos buscando sus diccionarios de griego y latín. (Sería injusto no darle crédito por el diagrama de dispersión ). Pero RA Fisher secuestró muchas palabras inglesas preexistentes, incluyendo variación , suficiencia , eficiencia y probabilidad . Más recientemente, JW Tukey fue un maestro en el uso de términos hogareños, pero pocos deberían sentir angustia por el hecho de que los sploms y las malas demandas no se dieron cuenta.
Un comentario se basa en el recuerdo de "La vida es [...] multiplicativa en lugar de aditiva: la distribución normal del registro es más normal que la normal". Luego. 1962. Reglas de trabajo de Bloggins. En Good, IJ (Ed.) El científico especula: una antología de ideas parcialmente elaboradas. Londres: Heinemann, 212-213 (cita en p.213).
fuente
Algunas de las cosas que encuentro:
Tratar el nivel de significancia y las probabilidades de cobertura de CI como intercambiables, de modo que las personas terminen haciendo cosas como hablar de "95% de significación".
[Lo que es peor es cuando las personas que cometen tales errores señalan sus notas de clase, o incluso los libros de texto, como apoyo para esto; en otras palabras, el error no es de ellos, sino que se está multiplicando por cien o por miles de veces, y lo que es peor, incluso si lo entienden correctamente, es posible que de todos modos tengan que repetir el error para aprobar el tema.]
También hay una tendencia común a pensar que la "importancia" de alguna manera existe fuera de una hipótesis / pregunta específica (lo que lleva a preguntas como "son mis datos significativos" sin ninguna noción clara de qué pregunta debe abordarse). [Un problema relacionado es "¿qué prueba debo usar para estos datos?" como si fueran los datos, en lugar de la pregunta a responder, ese es el motor de elección de análisis. (Si bien el "diseño" del estudio puede afectar las pruebas específicas utilizadas, la pregunta de interés es más importante; por ejemplo, si tiene tres grupos disponibles pero su pregunta de interés solo se relaciona con una comparación de dos de ellos, el el hecho de que tenga tres no lo obliga a hacer un análisis de tipo unidireccional en lugar de una comparación directa de los dos grupos de interés ... siempre que su elección de análisis no se derive de lo que muestran los datos. Idealmente, debe planificar sus preguntas y análisis antes de tener datos, en lugar de lanzar un análisis a los datos y ver qué queda, lo que parece preguntas de análisis post-hoc, incluyendo "¿qué prueba debo usar para estos datos?" - tienden a conducir a)
Una tendencia ocasional a referirse al complemento del valor p como algún tipo de "confianza en" o "probabilidad de" la alternativa.
"datos no paramétricos"; desafortunadamente, otro se encuentra en un par de libros (y, lamentablemente, en un artículo que pretende corregir un error común), este aparece con tanta frecuencia que está en mi breve lista de comentarios generados automáticamente (que comienza "Los datos no son ni paramétricos ni no paramétrico; esos son adjetivos que se aplican a modelos o técnicas ... ") (gracias Nick Cox por recordarme este particular bugbear)
Por lo general, lo que se pretende son "datos no normales", pero paramétrico no implica normal, y tener una normalidad aproximada no implica que necesitemos procedimientos paramétricos. Del mismo modo, la no normalidad no implica que necesitemos procedimientos no paramétricos. Ocasionalmente, lo que se pretende son "datos ordinales" o "datos nominales", pero en ningún caso eso implica que los modelos paramétricos finitos sean inapropiados.
Una tendencia común a malinterpretar el significado de "lineal" en "modelo lineal" de una manera que sería inconsistente con el uso del término "lineal" en "modelo lineal generalizado". Esto es en parte culpa de la forma en que usamos la terminología.
combinando el tipo de asimetría media-menos-mediana con asimetría de tercer momento, y combinando un cero en cualquiera (o incluso en ambos) con simetría. Ambos errores se encuentran con frecuencia en textos básicos ampliamente utilizados en algunas áreas de aplicación particulares. [Existe un error relacionado de tratar la asimetría cero y el exceso de curtosis cero como implicando normalidad]
este es tan común que se está volviendo difícil llamarlo un error (debido en parte a los esfuerzos de un programa en particular): llamar al exceso de curtosis simplemente "curtosis"; un error prácticamente garantizado para conducir a problemas de comunicación.
fuente
" Datos " es plural . (El singular es "datum").
fuente
Aunque no es estrictamente un término estadístico, voto para retirar la endogeneidad . Se utiliza para referirse a todo, desde la causalidad inversa hasta la confusión y la selección y el sesgo del colisionador, cuando todo lo que la gente realmente quiere hacer es decir: "Ese efecto no está identificado".
fuente
"Regresión hacia la media" no significa que si hemos observado un cierto número de muestras de iid por debajo del valor esperado, es probable que las siguientes muestras de iid estén por encima del valor esperado.
fuente
Puntos porcentuales frente a puntos porcentuales : si algo aumenta del 1% al 2%, aumenta en un 100%. O: puede decir que aumentó en 1 punto porcentual.
Afirmar que el aumento fue del 1% es muy engañoso.
fuente
Encuentro que las abreviaturas que no están claramente indicadas son un problema real. Por ejemplo, veo cosas como GLM y en ninguna parte se especifica si esto significa modelo lineal general o modelo lineal generalizado. Una vez, por lo general, puedo averiguar a qué se hace referencia después de profundizar en el contexto, pero creo que esto es particularmente problemático para los estudiantes que recién comienzan a aprender sobre modelos estadísticos.
Otro ejemplo de esto es IV. ¿Esto significa variable instrumental o variable independiente? Muchas veces no se aclara hasta que examinas el contexto.
Algo más sobre lo que veo confusión son "moderador" e "interacción". Además, la población (como en la población en general) y la población de interés parece confundir a los nuevos estudiantes a menos que sea muy claro.
fuente
Uno que es común en el lenguaje cotidiano:
promedio
Para la persona promedio por ahí (ironía amarga), la media, la mediana, la moda y el valor esperado de cualquier cosa parecen ser los mismos. Tienen una tendencia natural a hacer una estimación puntual, con el supuesto inconsciente e inexpugnable de que existe una distribución normal subyacente. Y la asunción igualmente inconsciente de una variación muy pequeña. La creencia de que tal estimación 1) existe y 2) será muy útil para ellos, ya que pueden tomarla como un predictor prácticamente seguro, está tan arraigada que es básicamente imposible convencerlos de lo contrario.
Para un ejemplo del mundo real, trate de hablar con un cocinero que le pregunta "cuál es el tamaño promedio de la papa", absolutamente seguro de que si le dice un número, podrá usarlo para cualquier receta que especifique un número de papas, y que salga perfecto cada vez. Y enojarse contigo por tratar de decirle "no hay tal número". Lamentablemente, sucede en situaciones con mucho más en juego que hacer sopa.
fuente
La curtosis no mide el "pico".
* Resta 3 o no; No hace ninguna diferencia a este punto.
fuente
Lineal significa:
fuente
La pregunta era sobre el uso de términos estadísticos que deberíamos CUIDAR corregir. He estado corrigiendo el uso de mis hijos milenarios del término 'aleatorio' para que signifique cosas que son lo opuesto a aleatorio durante 10 años. Teniendo en cuenta cuántos de mis alumnos luchan por producir una muestra de datos aleatorios que sea realmente aleatoria, lo que sucedió incluso antes de este uso de la palabra, la ofuscación de este término en la jerga cotidiana es una crisis.
Desde OnlineSlangDictionary:
fuente
Ya hay demasiados buenos ejemplos mencionados por Glen y Nick ... ¡no queda mucho!
Algunos aspectos de la regresión.
término de error y residual (es algo divertido cuando las personas están orgullosas de que sus residuos no estén correlacionados con los regresores)
predicción y estimación (¿deberíamos incluso dejar de hacer la distinción cuando se trata de los efectos aleatorios predichos?)
intervalo de predicción / pronóstico versus intervalo de confianza. Creo que hay una probabilidad> 0.5 para citar la incorrecta.
regresor (columna en la matriz de diseño) versus covariable et al. Especialmente en situaciones técnicas donde la distinción es esencial, muchas personas (incluido yo mismo) tienden a ser imprecisas.
fuente
Especialmente en entornos de seguros, es común usar la varianza para referirse a cualquier tipo de diferencia, en lugar de la media de las diferencias al cuadrado entre cada punto de datos y la media del conjunto de datos.
fuente
Bayesiano
Es posible que los estudiantes que lo aprenden no tengan problemas para decirle si algo "parece" bayesiano, pero pídales que resuelvan un problema con un enfoque bayesiano y frecuentista y probablemente fracasarán.
En mi experiencia, a los estudiantes se les enseña que es solo una diferencia filosófica, sin ningún ejemplo concreto que muestre el mismo problema atacado con ambos enfoques.
Ahora pregúnteles por qué alguien podría adoptar un enfoque frecuentista en su ejemplo; lo más probable es que su mejor explicación sería algo así como "bueno, en los viejos tiempos, las computadoras no existían ..."
fuente
Riesgo
Riesgo no significa probabilidad
El riesgo es la suma de los costos de todos los resultados, cada uno de estos costos multiplicado por la probabilidad de que ocurran.
El riesgo generalmente se compara con la recompensa, que es la ganancia que buscamos lograr.
Aquí hay un ejemplo: Cuán mortal es su kilovatio . Aquí los riesgos (número de personas muertas por diferentes fuentes de energía) se comparan con la recompensa: teravatios-hora de energía producida por estas fuentes de energía.
Entonces, por ejemplo: el riesgo de la energía nuclear no es la probabilidad de que ocurra un colapso; es la probabilidad de que ocurra un colapso, multiplicado por el número de personas que mueren por él, sumado con el número de personas que mueren por operaciones normales multiplicado por la probabilidad de que las operaciones sigan siendo normales.
fuente
Los efectos fijos y los efectos aleatorios pueden significar cosas diferentes para diferentes personas. En econometría, los efectos fijos son en realidad aleatorios y, si lo piensa, todos los efectos en las estadísticas son aleatorios, por lo que nombrar algo aleatorio no proporciona ninguna información adicional significativa.
fuente