No soy estadístico, pero mi trabajo de investigación involucra estadísticas (análisis de datos, lectura de literatura, etc.). Una vez más, un comentario sobre una de mis preguntas publicado aquí me recordó que hay algunas palabras comunes que tienen significados o connotaciones particularmente específicas para aquellos que tienen una buena práctica en el campo de la estadística.
Será útil tener una lista de tales palabras y pueden ser frases junto con algunos comentarios.
terminology
usuario4045
fuente
fuente
Respuestas:
" significativo ": aquí el uso común de la palabra en el lenguaje significa algo así como "importante" o "significativo". El significado estadístico es informalmente más cercano a "puede discernirse de la variación aleatoria sobre el nulo"; no significa que la diferencia sea lo suficientemente grande como para importar.
Estos son algunos ejemplos en los que esta distinción podría haber sido causa de cierta confusión: 1 2
" parámetro ", a menudo parece suceder, particularmente en experimentos científicos, que la palabra 'parámetro' se usa de la manera en que un estadístico usaría la palabra 'variable'. Wikipedia lo pone así:
Ejemplo donde este puede ser un problema: 1 - presumiblemente la publicación que condujo a esta pregunta. (Vi otro recientemente pero no puedo localizarlo ahora)
fuente
"Error": en las estadísticas a menudo significa cualquier desviación entre un valor observado y predicho. En la vida real significa un error.
fuente
Encontré un artículo arbitrado de 2010 que analiza esta pregunta.
Anderson-Cook CM. Jerga oculta: palabras cotidianas con significados específicos para las estadísticas. ICOTS8, Conferencia internacional sobre enseñanza de estadísticas, Liubliana, Eslovenia, 11-17 de julio de 2010.
El documento está disponible de forma gratuita en línea , por lo que solo proporciono una lista parcial de los términos que el autor analiza:
fuente
Me he encontrado con el problema de usar "falsificación" como "falsificar una hipótesis", mientras que otros pensaban que me refería a "inventar datos". También " sesgado " es casi imposible de mencionar sin causar confusión.
fuente
"normal" : en el lenguaje común, normal significa como se esperaba, no fuera de lo común. En estadística, si una variable se distribuye normalmente, se refiere a la distribución gaussiana. No creo que sea estándar poner en mayúscula la palabra "normal" para distinguirla del significado común del habla.
"normalización / estandarización" - En estadística, normalizar una variable significa restar la media y dividir por la desviación estándar.
"desviación estándar versus error estándar" : la desviación estándar generalmente se calcula con toda la población, mientras que el error estándar se calcula con la muestra.
fuente
"Paramétrico" versus "No paramétrico": categorías de pruebas que requieren datos "normales" o "no normales". Se prefieren las pruebas paramétricas a las no paramétricas.
Pruebas comunes: prueba T (emparejada), Mann-Whitney U, ANOVA, Anderson-Darling, etc.
Otros términos incluyen "significativo". Esta es una medida de si los datos indican que su hipótesis es válida o no. Cuando prueba su hipótesis con un cierto grado de probabilidad (normalmente 95%), un "valor p" de menos de 0.05 indicaría que rechazaría su "hipótesis nula" (es decir, los conjuntos de datos no son diferentes) y acepta su " hipótesis alternativa "(es decir, los conjuntos de datos son diferentes).
fuente
La estadística sesgada implica una distribución asimétrica.
En el lenguaje ordinario, e incluso dentro de la ciencia, sesgado se usa a menudo (¿y cada vez más?) Para referirse a lo que las personas generalmente llamarían sesgado , como en "Los resultados para la estatura media se sesgan al incluir a tantos jugadores de baloncesto".
fuente
Estimación : en estadística es el resultado de un cálculo. Por ejemplo, la media de la muestra es una estimación de la media de la población, y el intervalo de confianza de una media es una estimación del intervalo de la media de la población. Ambos son resultados de cálculos exactos. La "estimación" es una generalización precisa de tratar de hacer una inferencia sobre una población a partir de los datos de una muestra.
En el uso ordinario, la palabra estimación significa una suposición o presentimiento informado, o el resultado de un cálculo aproximado.
fuente
Probabilidad : en el lenguaje común el sinónimo de probabilidad , pero en las estadísticas que tienen una relación inversa particular con la probabilidad, en eso, para cualquier conjunto de parámetros y conjunto de datos , .X L ( θ | X ) = Pr ( X | θ )θ X L(θ|X)=Pr(X|θ)
Representante : tiene una serie de significados a veces conflictivos tanto en el lenguaje cotidiano como en el científico. Consulte Kruskal y Mosteller 1979a , 1979b , 1979c y 1980 . La mayoría de los estadísticos que conozco considerarían una muestra representativa si se muestreara con probabilidad conocida; La mayoría de los laicos que conozco lo considerarían representativo si las distribuciones marginales fueran similares a la población.
fuente
Muestra : mientras que en estadística esto se refiere a un conjunto de casos , en muchas otras disciplinas una muestra es una muestra física . Por supuesto, el tamaño de la muestra también es ambiguo, ya que se refiere al número de casos en la muestra estadística o al tamaño físico (masa, volumen, ...) de la muestra.
Sensibilidad : para el diagnóstico médico, la fracción de casos enfermos que se reconoce en la prueba. En química analítica: la pendiente de la curva de calibración (ver más abajo).
Especificidad : en el diagnóstico médico, la fracción de casos no relacionados con la enfermedad está correctamente reconocida por la prueba. En química analítica, un método es específico si no hay sensibilidades cruzadas.
Calibración : en realidad, ya se enumeran dos significados para las estadísticas en el artículo de Wiki. En química y física, el significado de la regresión inversa es el habitual. Sin embargo, surge la confusión:
Conjunto de validación : aquí me gustaría llamar la atención sobre un uso potencialmente confuso de términos que creo que ya surge dentro de los diferentes campos relacionados con las estadísticas, aunque nuevamente contraste. En el contexto de validación anidada / doble u optimización versus validación / prueba, una línea de terminología divide la capacitación - validación - prueba y utiliza el conjunto de "validación" para la optimización de hiperparámetros.
Por ejemplo, en los Elementos del aprendizaje estadístico, p. 222 en la 2da ed. :
En contraste, por ejemplo, en la química analítica, la validación es el procedimiento que demuestra que el modelo (en realidad, la evaluación del modelo final es solo una parte de la validación de un método analítico) funciona bien para la aplicación y mide su rendimiento, ver, por ejemplo, John K. Taylor: Validación de métodos analíticos, Analytical Chemistry 1983 55 (6), 600A-608A o pautas de instituciones como la FDA. Esto sería "probar" en la otra línea de terminología, donde la "validación" se usa realmente para la optimización.
La diferencia crucial es que los resultados de "optimización-validación" se utilizarán para cambiar (seleccionar) el modelo, mientras que los cambios en un método analítico validado (incluido el modelo analítico de datos) significa que debe volver a validar (es decir, demostrar que el método aún funciona como se supone que debe funcionar).
Si tiene que hablar con químicos, una buena referencia de la terminología de química analítica es Danzer: Química analítica: fundamentos teóricos y metrológicos, DOI 10.1007 / b103950
fuente