¿Qué términos estadísticos mal utilizados valen la pena corregir?

104

Las estadísticas están en todas partes; Sin embargo, el uso común de términos estadísticos a menudo no está claro.

Los términos probabilidad y probabilidades se usan de manera intercambiable en el inglés común a pesar de sus expresiones matemáticas bien definidas y diferentes.

No separar el término probabilidad de probabilidad habitualmente confunde a los médicos que intentan cuantificar la probabilidad de cáncer de seno dada una mamografía positiva, “Oh, qué tontería. No puedo hacer esto Deberías probar a mi hija; ella está estudiando medicina ".

Igualmente extendido es el uso de correlación en lugar de asociación . O correlación que implica causalidad .

En el famoso documental de Al Gore An Inconvenient Truth , una diapositiva ilustra la correlación del núcleo de hielo de CO2 y las temperaturas, dejando el trabajo más técnico para probar la causalidad de la discusión:

ingrese la descripción de la imagen aquí

PREGUNTA: ¿Qué términos estadísticos plantean problemas de interpretación cuando se usan sin rigor matemático y, por lo tanto, vale la pena corregirlos?

Antoni Parellada
fuente
44
Las probabilidades versus la probabilidad entre los legos no me parecen un problema, ya que los legos no las calcularían de todos modos, solo estarían diciendo que los valores son bajos o altos, y los dos están directamente correlacionados.
Mehrdad
1
@Mehrdad estoy de acuerdo. En realidad, este es el punto ... ¿hay alguna situación en la que el mal uso de estas palabras, que se han adoptado y tecnificado dentro de los límites de las estadísticas, provoque problemas? Por ejemplo, está claro que existe un importante cuerpo de investigación detrás del cambio climático, pero en muchas otras circunstancias se pueden hacer afirmaciones falsas al sugerir que la correlación es igual a la causalidad. En el caso de las probabilidades y las probabilidades, cualquiera se puede convertir en la otra, por lo que el único riesgo es malinterpretar sus apuestas.
Antoni Parellada
44
@Mehrdad El punto sobre las probabilidades es interesante, pero creo que es más complicado de lo que parece. Cuando los legos hablan de probabilidades, generalmente se refieren a probabilidades de juego, y estas se expresan muy a menudo en el formato "probabilidades contra". Entonces, en el sistema con el que la mayoría de las personas está familiarizada, un valor alto para las probabilidades está asociado con una probabilidad baja , aunque para un estadístico las probabilidades altas están asociadas con una probabilidad alta. Por lo tanto, esto está bastante maduro para la confusión: vea también nuestra publicación en Odds Made Simple
Silverfish el
66
Probablemente valga la pena tener en cuenta que algunos de estos términos eran preexistentes en el idioma inglés (con un significado suelto), antes de ser apropiados por las estadísticas y se les dieron definiciones técnicas rigurosas. Es un poco condensador tomar la palabra, cambiar el significado y luego echar la culpa a otros por usarla mal cuando solo la usan con la definición anterior, no técnica.
RM
Realmente no me gusta llamar a las pruebas "post hoc" incluso cuando se planifican con anticipación. Creo que esto comenzó con algún paquete de estadísticas, pero ahora es generalizado.
David Lane,

Respuestas:

101

Puede ser inútil luchar contra los cambios en el lenguaje. Pero

parámetro no significa variable

En las estadísticas clásicas, que en este caso comienzan precisamente con RA Fisher, que utilizó por primera vez el término con este significado, un parámetro es una constante desconocida para estimar, por ejemplo, una media o correlación de la población. En matemáticas, hay significados relacionados pero no idénticos, como cuando se da una curva paramétricamente. En muchas ciencias, parámetro es solo otra palabra para una medida (un término denso con significado matemático), propiedad o variable, por ejemplo, longitud o conductividad o porosidad o virtud, según sea el caso. Naturalmente, la longitud o virtud de un individuo es desconocida antes de que se mida. pero las personas con mentalidad estadística pueden confundirse por su uso para un conjunto de tales mediciones. En lenguaje ordinario o vulgar, parámetros(casi siempre en plural) a menudo significa los límites de algo, por ejemplo, una relación personal o una política política, tal vez derivada de una confusión original con el perímetro . Con alta probabilidad previa, se presume que los bayesianos hablarán por sí mismos en sus propios usos (agradecimiento a @conjugateprior).

sesgado no significa sesgado

Durante un siglo o más, la asimetría ha tenido un sentido estadístico específico de referirse a la asimetría de las distribuciones, ya sea evaluadas gráficamente, medidas numéricamente o presuntamente teóricamente como una cuestión de fe o esperanza. Durante mucho más tiempo, o así se puede suponer, el sesgo ha significado estar equivocado en promedio, lo que, siempre que sepamos la verdad, lo que significa un valor verdadero o correcto, puede cuantificarse como un error sistemático. El sesgo en el lenguaje ordinario tiene un sentido común de deformarse o distorsionarse, y por lo tanto de ser incorrecto, incorrecto y también sesgado. Ese sentido (hasta donde he notado, solo recientemente) ha comenzado a filtrarse nuevamente en las discusiones estadísticas, de modo que el significado original de asimetría está en peligro de ser borroso o sumergido.

correlación no significa acuerdo

La correlación ha atraído varios sentidos precisos en las estadísticas, que tienen en común una idea de una relación bivariada perfecta en un sentido preciso: los casos principales son la relación lineal y monótona. A menudo se diluye, incluso en discusiones estadísticas, para significar casi cualquier tipo de relación o asociación. Lo que la correlación no significa, necesariamente, es acuerdo: por lo tanto, y=a+bx implica una correlación de Pearson de 1 o 1 siempre que b0 , pero el acuerdo y=x requiere la condición muy estricta a=0,b=1 .

único no significa distinto

Es bastante común hablar de los valores distintos de los datos como únicos , pero los únicos se conservan idealmente mejor como el significado que ocurre una sola vez. Mi propia suposición es que parte de la culpa proviene de la utilidad Unix [sic] uniqy sus imitadores, que reducen los valores posiblemente repetidos a un conjunto en el que cada valor es realmente único. El uso, en esta suposición, combina la entrada y la salida de un programa. (Por el contrario, si hablamos de duplicados en los datos, rara vez nos restringimos a dobles tonos que ocurren precisamente dos veces. El término se replicatendría más sentido lingüísticamente pero se ha adelantado para la replicación deliberada de controles en experimentos; los valores de respuesta resultantes generalmente no son del todo idénticos, lo cual es gran parte del punto).

las muestras rara vez se repiten

En estadística, una muestra incluye varios valores, y el muestreo repetido es una gran virtud teórica, pero rara vez se practica, excepto por simulación, que es nuestro término habitual para cualquier tipo de falsificación en silico . En muchas ciencias, una muestra es un solo objeto, que consiste en un bulto, trozo o porción de agua, tierra, sedimento, roca, sangre, tejido u otras sustancias que varían de atractivas a benignas o asquerosas; lejos de ser excepcional, tomar muchas muestras puede ser esencial para cualquier análisis serio. Aquí la terminología de cada campo tiene perfecto sentido para su gente, pero a veces se necesita traducción.

error generalmente no significa error; Como señaló Harold Jeffreys, el sentido primario es errático, no erróneo.

Sin embargo, debemos tener cuidado con nuestros propios pecados o peculiaridades de la terminología:

la regresión no va hacia atrás

estacionario no significa inmóvil o fijo

la confianza no tiene nada que ver con el estado mental o psicológico de nadie

la importancia solo a veces tiene su significado cotidiano

exacto es a menudo un término honorífico, que se refiere a una solución o cálculo convenientemente manejable en lugar de uno apropiado para el problema

distribuciones sesgadas a la derecha para muchos se ven sesgadas a la izquierda, y viceversa

el lognormal se llama así porque es una normal exponencial

pero lognormal es más normal que lo normal

el gaussiano fue descubierto por De Moivre

Poisson no descubrió el Poisson , y mucho menos la regresión de Poisson

el bootstrap no te ayudará con tu calzado

la navaja no corta

la curtosis no es una afección médica

las parcelas de tallo y hojas no se refieren a plantas

una variable ficticia es útil, no inútil o estúpida

¿Quién en la Tierra (o en cualquier otro lugar) piensa que la heterocedasticidad es realmente un término preferible sobre la variabilidad desigual ?

robusto ahora tiene al menos dos significados técnicos principales para diferentes grupos, ninguno de los cuales inhibe su uso frecuente, incluso en discusiones técnicas, para significar simplemente algo así como "se afirma que se comporta bien"

IV ahora tiene al menos dos significados principales para diferentes grupos

factor ahora tiene al menos dos significados principales para diferentes grupos

normalizar y estandarizar tienen innumerables significados (realmente necesitamos estandarizar allí)

versus describir un gráfico significa variable vertical versus variable horizontal , a menos que signifique lo contrario

y (por último, pero no menos importante, para acuñar una frase) las estadísticas tienen al menos tres significados principales.

Notas:

  1. A pesar de cualquier apariencia de lo contrario, creo que esta es una buena y seria pregunta.

  2. Cambio de modas. Bien entrado el siglo veinte, parece que muchas personas (sin nombres, sin taladro, pero podría mencionarse a Karl Pearson) solo podían inventar términos buscando sus diccionarios de griego y latín. (Sería injusto no darle crédito por el diagrama de dispersión ). Pero RA Fisher secuestró muchas palabras inglesas preexistentes, incluyendo variación , suficiencia , eficiencia y probabilidad . Más recientemente, JW Tukey fue un maestro en el uso de términos hogareños, pero pocos deberían sentir angustia por el hecho de que los sploms y las malas demandas no se dieron cuenta.

  3. Un comentario se basa en el recuerdo de "La vida es [...] multiplicativa en lugar de aditiva: la distribución normal del registro es más normal que la normal". Luego. 1962. Reglas de trabajo de Bloggins. En Good, IJ (Ed.) El científico especula: una antología de ideas parcialmente elaboradas. Londres: Heinemann, 212-213 (cita en p.213).

Nick Cox
fuente
Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
whuber
¡La heterocedasticidad mece totalmente la caja del gato! "¿Variabilidad desigual?" [Phuagh!]) (+1 muy bueno de lo contrario;)
Alexis
1
Puede valer la pena agregar que las pruebas de regresión se usan con frecuencia en el contexto del desarrollo de software, donde, en términos generales, se refiere a retroceder.
Konrad
@Konrad Interesante, pero luego (corrígeme si me equivoco) (a) eso no sería un mal uso de la palabra y (b) la palabra allí no tiene un sentido estadístico.
Nick Cox
@NickCox Correcto.
Konrad
33

Algunas de las cosas que encuentro:

  1. Tratar el nivel de significancia y las probabilidades de cobertura de CI como intercambiables, de modo que las personas terminen haciendo cosas como hablar de "95% de significación".

    [Lo que es peor es cuando las personas que cometen tales errores señalan sus notas de clase, o incluso los libros de texto, como apoyo para esto; en otras palabras, el error no es de ellos, sino que se está multiplicando por cien o por miles de veces, y lo que es peor, incluso si lo entienden correctamente, es posible que de todos modos tengan que repetir el error para aprobar el tema.]

  2. También hay una tendencia común a pensar que la "importancia" de alguna manera existe fuera de una hipótesis / pregunta específica (lo que lleva a preguntas como "son mis datos significativos" sin ninguna noción clara de qué pregunta debe abordarse). [Un problema relacionado es "¿qué prueba debo usar para estos datos?" como si fueran los datos, en lugar de la pregunta a responder, ese es el motor de elección de análisis. (Si bien el "diseño" del estudio puede afectar las pruebas específicas utilizadas, la pregunta de interés es más importante; por ejemplo, si tiene tres grupos disponibles pero su pregunta de interés solo se relaciona con una comparación de dos de ellos, el el hecho de que tenga tres no lo obliga a hacer un análisis de tipo unidireccional en lugar de una comparación directa de los dos grupos de interés ... siempre que su elección de análisis no se derive de lo que muestran los datos. Idealmente, debe planificar sus preguntas y análisis antes de tener datos, en lugar de lanzar un análisis a los datos y ver qué queda, lo que parece preguntas de análisis post-hoc, incluyendo "¿qué prueba debo usar para estos datos?" - tienden a conducir a)

  3. Una tendencia ocasional a referirse al complemento del valor p como algún tipo de "confianza en" o "probabilidad de" la alternativa.

  4. "datos no paramétricos"; desafortunadamente, otro se encuentra en un par de libros (y, lamentablemente, en un artículo que pretende corregir un error común), este aparece con tanta frecuencia que está en mi breve lista de comentarios generados automáticamente (que comienza "Los datos no son ni paramétricos ni no paramétrico; esos son adjetivos que se aplican a modelos o técnicas ... ") (gracias Nick Cox por recordarme este particular bugbear)

    Por lo general, lo que se pretende son "datos no normales", pero paramétrico no implica normal, y tener una normalidad aproximada no implica que necesitemos procedimientos paramétricos. Del mismo modo, la no normalidad no implica que necesitemos procedimientos no paramétricos. Ocasionalmente, lo que se pretende son "datos ordinales" o "datos nominales", pero en ningún caso eso implica que los modelos paramétricos finitos sean inapropiados.

  5. Una tendencia común a malinterpretar el significado de "lineal" en "modelo lineal" de una manera que sería inconsistente con el uso del término "lineal" en "modelo lineal generalizado". Esto es en parte culpa de la forma en que usamos la terminología.

  6. combinando el tipo de asimetría media-menos-mediana con asimetría de tercer momento, y combinando un cero en cualquiera (o incluso en ambos) con simetría. Ambos errores se encuentran con frecuencia en textos básicos ampliamente utilizados en algunas áreas de aplicación particulares. [Existe un error relacionado de tratar la asimetría cero y el exceso de curtosis cero como implicando normalidad]

  7. este es tan común que se está volviendo difícil llamarlo un error (debido en parte a los esfuerzos de un programa en particular): llamar al exceso de curtosis simplemente "curtosis"; un error prácticamente garantizado para conducir a problemas de comunicación.

Glen_b
fuente
2
+1. Quiero recordarles los grotescos "datos no paramétricos", que pertenecen mejor a esta lista que a la mía. El exceso de curtosis es un hermano feo de la curtosis cruda.
Nick Cox
@ Nick Gracias, he estado sentado aquí mirando mi lista diciendo "hay algo más que realmente me molesta que sé que pertenece aquí". Ese es.
Glen_b
3
Otra es la "prueba estadística" expandida tan ampliamente que se convierte en la pregunta inicial: ¿qué prueba debo aplicar a mis datos? a menudo en la creencia de que habrá una sola respuesta de la forma "t de Student", "Mann-Whitney" o "chi-cuadrado". A lo que mi respuesta es más habitual, tal vez ninguna, o tenemos que analizar cuidadosamente sus datos y discutir cuál es su verdadera pregunta antes de que podamos pensar en eso.
Nick Cox
@nick Ese se relaciona estrechamente con mi artículo 2. Me pregunto si hay una buena manera de expandirlo.
Glen_b
1
Me temo que muchos textos estadísticos (parecen) alentar ese pensamiento.
Nick Cox
31

" Datos " es plural . (El singular es "datum").

gung - Restablece a Monica
fuente
2
¿Realmente hablas de un dato? Por lo general, ese punto ... ese valor ..., esa observación ..., al menos por aquí.
Nick Cox
55
Data también es un androide singular, que asimila datos sobre humanos que él observa para llegar a conclusiones basadas en datos, a menudo con un efecto humorístico.
Matthew Drury
2
Tendrías que caminar mucho para escuchar eso.
Nick Cox
55
Los datos plurales requieren no solo el acuerdo del verbo: "datos son" en lugar de "datos son", sino de cuantificadores: "muchos datos" en lugar de "muchos datos", "menos datos" en lugar de "menos datos". Tan pocas personas logran ser consistentes que parece ser una causa perdida.
Scortchi
55
A pesar de años (es decir, décadas) de luchar contra esto (mis profesores de latín estarían encantados), he llegado a un punto de vista similar al de @ Scortchi. Pero trato de usar el conjunto de datos de palabras donde sea posible, influenciado particularmente por las prácticas de StataCorp. Eso resuelve algunas de las dificultades.
Nick Cox
14

Aunque no es estrictamente un término estadístico, voto para retirar la endogeneidad . Se utiliza para referirse a todo, desde la causalidad inversa hasta la confusión y la selección y el sesgo del colisionador, cuando todo lo que la gente realmente quiere hacer es decir: "Ese efecto no está identificado".

conjugadoprior
fuente
Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
Glen_b
13

"Regresión hacia la media" no significa que si hemos observado un cierto número de muestras de iid por debajo del valor esperado, es probable que las siguientes muestras de iid estén por encima del valor esperado.

Benjamin Lindqvist
fuente
3
+1 Esto es importante. Personas notables han quedado extraordinariamente confundidas por esto. Por ejemplo, el popular libro de Peter Bernstein sobre análisis de riesgos, Against the Gods . caracteriza la regresión a la media de muchas maneras diferentes, ninguna de las cuales es correcta.
whuber
10

Puntos porcentuales frente a puntos porcentuales : si algo aumenta del 1% al 2%, aumenta en un 100%. O: puede decir que aumentó en 1 punto porcentual.

Afirmar que el aumento fue del 1% es muy engañoso.

SPhadler
fuente
7

Encuentro que las abreviaturas que no están claramente indicadas son un problema real. Por ejemplo, veo cosas como GLM y en ninguna parte se especifica si esto significa modelo lineal general o modelo lineal generalizado. Una vez, por lo general, puedo averiguar a qué se hace referencia después de profundizar en el contexto, pero creo que esto es particularmente problemático para los estudiantes que recién comienzan a aprender sobre modelos estadísticos.

Otro ejemplo de esto es IV. ¿Esto significa variable instrumental o variable independiente? Muchas veces no se aclara hasta que examinas el contexto.

Algo más sobre lo que veo confusión son "moderador" e "interacción". Además, la población (como en la población en general) y la población de interés parece confundir a los nuevos estudiantes a menos que sea muy claro.

EstadísticasEstudiante
fuente
55
También he visto que GLM solía significar "Modelos lineales globales" por algunos en la multitud de aprendizaje automático. Solo para agregar a la confusión en un término ya sobrecargado
Glen_b
1
Apoyo en parte esta respuesta / observación. Creo que "Generalizado" (sea lo que sea) debería abreviarse mejor a Gz, no a G. Como GzLM (modelo lineal generalizado).
ttnphns
2
@ttnphns: algunos de nosotros escribimos generalizados con una s
Henry
Tengo curiosidad por @ttnphns, ¿qué parte de esta respuesta no apoya y por qué? Es muy posible que tenga un malentendido de algo, por lo que me gustaría saber más si tiene algo que ofrecer más. ¡Gracias!
StatsStudent
1
Huh, pensé que IV significaba in vitro. = P
Mehrdad
7

Uno que es común en el lenguaje cotidiano:

promedio

Para la persona promedio por ahí (ironía amarga), la media, la mediana, la moda y el valor esperado de cualquier cosa parecen ser los mismos. Tienen una tendencia natural a hacer una estimación puntual, con el supuesto inconsciente e inexpugnable de que existe una distribución normal subyacente. Y la asunción igualmente inconsciente de una variación muy pequeña. La creencia de que tal estimación 1) existe y 2) será muy útil para ellos, ya que pueden tomarla como un predictor prácticamente seguro, está tan arraigada que es básicamente imposible convencerlos de lo contrario.

Para un ejemplo del mundo real, trate de hablar con un cocinero que le pregunta "cuál es el tamaño promedio de la papa", absolutamente seguro de que si le dice un número, podrá usarlo para cualquier receta que especifique un número de papas, y que salga perfecto cada vez. Y enojarse contigo por tratar de decirle "no hay tal número". Lamentablemente, sucede en situaciones con mucho más en juego que hacer sopa.

rumtscho
fuente
3
Creo que esto es un poco exagerado. Por ejemplo, millones, si no miles de millones de personas parecen tener poca dificultad con los promedios en los deportes.
Nick Cox
1
@NickCox ciertamente depende del contexto. Especialmente el cálculo de una media aritmética para datos dados no es problemático. He visto el problema específicamente en los casos que describí, donde necesitan una estimación puntual y suponen que el "promedio" es muy preciso. Además, suponen que este "promedio" se calcula como una media, pero si les pide que expliquen lo que significan por promedio, describen aproximadamente un modo.
rumtscho
@rumtscho, tienes razón. Joe Average puede pensar que el promedio es el modo o el típico.
Mark L. Stone
Cuando las personas hablan sobre los precios "promedio" de las casas en el Reino Unido, no pueden decirme el tipo de promedio que están usando, o si los outliners han sido excluidos.
Ian Ringrose
1
No hay nada que diga que los medios no pueden calcularse para distribuciones multimodales, es solo que a menudo, no es la mejor medida para describir la distribución. Además, no estoy seguro de que haga grandes cosas para que la imagen de los estadísticos les diga a todos "¡No sabes lo que significa la palabra promedio!" y luego, cuando apuntan a una definición de diccionario, respondemos "¡Bueno, tampoco el diccionario!"
Cliff AB
7

La curtosis no mide el "pico".

Z4 4El |ZEl |El |ZEl |

* Resta 3 o no; No hace ninguna diferencia a este punto.

Peter Westfall
fuente
1
ZZ
1
Tuve un profesor de estadísticas grecochipriota, que nos enseñó que leptokurtic, en griego, significa "hombro estrecho" o "jorobado". Por lo tanto, una distribución leptokurtic (p. Ej., Un Laplace o doble exponencial) tiene menos masa que la gaussiana (de igual varianza) en sus áreas de "hombro" y, en consecuencia, más masa en las áreas de cabeza y cola. Por el contrario, una distribución platykurtic (por ejemplo, el uniforme) tiene más masa en los hombros, y menos masa en las áreas de la cabeza y la cola, que la normal.
Mico
2
Buena explicación de las palabras, pero en realidad no tienen nada que ver con la estadística de curtosis que desarrolló Pearson. Pearson se equivocó, pero al usar esas elegantes palabras griegas hizo que otros pensaran que estaba en algo profundo. Su error ha perjudicado la educación estadística y la alfabetización durante más de 100 años, lamentablemente. Vea mi artículo para las distribuciones puntiagudas ("lepto") donde la curtosis es pequeña, y las distribuciones de superficie plana ("platy") donde la curtosis es casi infinita. La curtosis de Pearson no dice nada sobre "lepto" o "platy". ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall
5

Lineal significa:

  • y=una+siXy=una+siX+CX2y=unaXsi

  • y=miuna+siX1+miuna+siXy=una+siX+Xmax(X-θ,0 0)

  • yt=una+siyt-1+CXyt-yt-1=una+si(yt-1-Xt-X)+C(Xt-Xt-1)+reXt-1

yXuna,si,C,reθ

Alexis
fuente
5

La pregunta era sobre el uso de términos estadísticos que deberíamos CUIDAR corregir. He estado corrigiendo el uso de mis hijos milenarios del término 'aleatorio' para que signifique cosas que son lo opuesto a aleatorio durante 10 años. Teniendo en cuenta cuántos de mis alumnos luchan por producir una muestra de datos aleatorios que sea realmente aleatoria, lo que sucedió incluso antes de este uso de la palabra, la ofuscación de este término en la jerga cotidiana es una crisis.

Desde OnlineSlangDictionary:

Definition of random


random

adjective
  • inesperado y sorprendente
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • inesperadamente genial
    The party was totally random.
    
SASmom
fuente
4

Ya hay demasiados buenos ejemplos mencionados por Glen y Nick ... ¡no queda mucho!

Algunos aspectos de la regresión.

  • término de error y residual (es algo divertido cuando las personas están orgullosas de que sus residuos no estén correlacionados con los regresores)

  • predicción y estimación (¿deberíamos incluso dejar de hacer la distinción cuando se trata de los efectos aleatorios predichos?)

  • intervalo de predicción / pronóstico versus intervalo de confianza. Creo que hay una probabilidad> 0.5 para citar la incorrecta.

  • regresor (columna en la matriz de diseño) versus covariable et al. Especialmente en situaciones técnicas donde la distinción es esencial, muchas personas (incluido yo mismo) tienden a ser imprecisas.

Michael M
fuente
Lo siento estoy confundido. ¿Hay alguna diferencia entre predicción y estimación? ¿Podría explicar más sobre sus últimos dos puntos también? ¡Gracias!
yuqian
3

Especialmente en entornos de seguros, es común usar la varianza para referirse a cualquier tipo de diferencia, en lugar de la media de las diferencias al cuadrado entre cada punto de datos y la media del conjunto de datos.

Clarinetista
fuente
66
Yo también he encontrado la variación utilizada en este sentido diferente, pero tenga en cuenta que la variación era una palabra inglesa existente cuando RA Fisher la secuestró para este propósito en 1918. Por lo tanto, este es un uso diferente; las personas estadísticas no pueden reclamar la propiedad del verdadero significado.
Nick Cox
3

Bayesiano

Es posible que los estudiantes que lo aprenden no tengan problemas para decirle si algo "parece" bayesiano, pero pídales que resuelvan un problema con un enfoque bayesiano y frecuentista y probablemente fracasarán.

En mi experiencia, a los estudiantes se les enseña que es solo una diferencia filosófica, sin ningún ejemplo concreto que muestre el mismo problema atacado con ambos enfoques.

Ahora pregúnteles por qué alguien podría adoptar un enfoque frecuentista en su ejemplo; lo más probable es que su mejor explicación sería algo así como "bueno, en los viejos tiempos, las computadoras no existían ..."

Mehrdad
fuente
¿Podría compartir su explicación de por qué alguien podría adoptar un enfoque frecuentista? ¡Gracias!
yuqian
44
@yuqian: sí. Para mí, la parte importante es que lo haces cuando quieres que las personas estén objetivamente de acuerdo contigo. Los enfoques bayesianos requieren distribuciones previas, que son intrínsecamente subjetivas, y en los problemas del mundo real no hay un solo objetivo correcto correcto objetivamente ... lo que significa que dos personas pueden calcular diferentes respuestas para el mismo problema dependiendo de lo que creen que deberían ser sus antecedentes. Con un enfoque frecuentista no existe tal ambigüedad, y eso hace posible comparar sus resultados con los de otros de manera objetiva.
Mehrdad
2

Riesgo

Riesgo no significa probabilidad

El riesgo es la suma de los costos de todos los resultados, cada uno de estos costos multiplicado por la probabilidad de que ocurran.

El riesgo generalmente se compara con la recompensa, que es la ganancia que buscamos lograr.

Aquí hay un ejemplo: Cuán mortal es su kilovatio . Aquí los riesgos (número de personas muertas por diferentes fuentes de energía) se comparan con la recompensa: teravatios-hora de energía producida por estas fuentes de energía.

Entonces, por ejemplo: el riesgo de la energía nuclear no es la probabilidad de que ocurra un colapso; es la probabilidad de que ocurra un colapso, multiplicado por el número de personas que mueren por él, sumado con el número de personas que mueren por operaciones normales multiplicado por la probabilidad de que las operaciones sigan siendo normales.

Michael Karnerfors
fuente
44
"Riesgo" no tiene una definición estándar universalmente aceptada. Pero, "la suma de los costos [pérdidas] de todos los resultados, cada uno de estos costos [pérdidas] multiplicado por la probabilidad de que ocurran" es la definición del costo [pérdida] esperado. El riesgo, por otro lado, generalmente se refiere a desviaciones (adversas) de la pérdida esperada. Por lo tanto, su definición es expectativa, mientras que creo que las definiciones típicas de riesgo abordan la dispersión.
A. Webb
Por ejemplo, cuando compramos un seguro, el propósito es reducir el riesgo (reducir el impacto de eventos improbables), pero los costos reales esperados son más altos para el asegurado, siendo la diferencia los gastos y las ganancias del asegurador. Las pérdidas extremas en la cola se han cambiado por un costo más estable de la prima.
A. Webb
3
@ A.Webb FWIW, la Sociedad (internacional) de Análisis de Riesgos define el riesgo como "El potencial para la realización de consecuencias adversas no deseadas para la vida humana, la salud, la propiedad o el medio ambiente; la estimación del riesgo generalmente se basa en el valor esperado de la probabilidad condicional de que el evento ocurra multiplicado por la consecuencia del evento dado que ha ocurrido ". Por lo tanto, el riesgo parece tener una definición estándar, y muestra que tiene razón al distinguir el riesgo de cómo podría estimarse o medirse.
whuber
1
PAGS(UNA)/ /t
2

Los efectos fijos y los efectos aleatorios pueden significar cosas diferentes para diferentes personas. En econometría, los efectos fijos son en realidad aleatorios y, si lo piensa, todos los efectos en las estadísticas son aleatorios, por lo que nombrar algo aleatorio no proporciona ninguna información adicional significativa.

mpiktas
fuente