Recientemente, dos compañeros de trabajo diferentes han utilizado una especie de argumento sobre las diferencias entre las condiciones que me parece incorrecto. Ambos compañeros de trabajo usan estadísticas, pero no son estadísticos. Soy un novato en estadística.
En ambos casos, sostuve que, debido a que no había una diferencia significativa entre dos condiciones en un experimento, era incorrecto hacer una afirmación general sobre estos grupos con respecto a la manipulación. Tenga en cuenta que "hacer un reclamo general" significa algo así como escribir: "El grupo A usó X con más frecuencia que el grupo B".
Mis compañeros de trabajo respondieron: "a pesar de que no hay una diferencia significativa, la tendencia sigue ahí" y "aunque no hay una diferencia significativa, todavía hay una diferencia". Para mí, ambos suenan como una equivocación, es decir, cambiaron el significado de "diferencia" de: "una diferencia que probablemente sea el resultado de algo distinto al azar" (es decir, significación estadística), a "cualquier no -Cero diferencia en la medición entre grupos ".
¿Fue correcta la respuesta de mis compañeros de trabajo? No lo tomé con ellos porque me superaron.
Respuestas:
Esta es una gran pregunta; La respuesta depende mucho del contexto.
En general, diría que tiene razón : hacer un reclamo general no calificado como "el grupo A usó X con más frecuencia que el grupo B" es engañoso. Sería mejor decir algo como
o
o
Por otro lado: sus compañeros de trabajo tienen razón en que en este experimento en particular , el grupo A usó X con más frecuencia que el grupo B. Sin embargo, las personas rara vez se preocupan por los participantes en un experimento en particular; quieren saber cómo sus resultados se generalizarán a una población más grande, y en este caso la respuesta general es que no puede decir con seguridad si un grupo A seleccionado al azar usará X más o menos a menudo que un grupo B seleccionado al azar.
Si tuviera que elegir hoy si usar el tratamiento A o el tratamiento B para aumentar el uso de X, en ausencia de cualquier otra información o diferencias en los costos, etc., entonces elegir A sería su mejor opción. Pero si quisiera estar seguro de que probablemente estaba haciendo la elección correcta, necesitaría más información.
Tenga en cuenta que usted debe no dice "no hay ninguna diferencia entre el grupo A y el grupo B en su uso de X", o "el grupo A y el grupo B el uso de la misma cantidad X". Esto es cierto para ninguno de los participantes en su experimento (donde A usó X 13% más) o en la población general; en la mayoría de los contextos del mundo real, usted sabe que realmente debe haber algún efecto (no importa cuán leve) sea de A contra B; simplemente no sabes en qué dirección va.
fuente
Esa es una pregunta difícil!
Lo primero es lo primero, cualquier umbral que elija para determinar la significación estadística es arbitrario. El hecho de que la mayoría de las personas use un valor p del5% no lo hace más correcto que ningún otro. Entonces, en cierto sentido, debe pensar en la significación estadística como un "espectro" en lugar de un sujeto blanco o negro.p
Supongamos que tenemos una hipótesis nulaH0 (por ejemplo, los grupos A y B muestran la misma media para la variable X , o la media de la población para la variable Y está por debajo de 5). Puede pensar en la hipótesis nula como la hipótesis de "no tendencia". Recopilamos algunos datos para verificar si podemos refutar H0 (la hipótesis nula nunca es "comprobada"). Con nuestra muestra, hacemos algunas estadísticas y finalmente obtenemos un valor p . En pocas palabras, el valor p es la probabilidad de que el azar puro produzca resultados igualmente (o más) extremos que los que obtuvimos, suponiendo, por supuesto, H0 para ser verdad (es decir, sin tendencia).
Si obtenemos un valorp "bajo" , decimos que el azar rara vez produce resultados como esos, por lo tanto, rechazamos H0 (hay evidencia estadísticamente significativa de que H0 podría ser falso). Si obtenemos un valor p "alto" , es más probable que los resultados sean resultado de la suerte, en lugar de ser una tendencia real. No decimos que H0 es cierto, sino que se deben realizar más estudios para rechazarlo.
Espero que esta explicación demasiado verbal te ayude a ordenar tus ideas. El resumen es que tienes toda la razón! No debemos llenar nuestros informes, ya sea para investigación, negocios o lo que sea, con afirmaciones descabelladas respaldadas por poca evidencia. Si realmente cree que hay una tendencia, pero no alcanzó significación estadística, ¡repita el experimento con más datos!
fuente
Un efecto significativo solo significa que midió una anomalía poco probable (poco probable si la hipótesis nula, ausencia de efecto, fuera cierta). Y como consecuencia, se debe dudar con alta probabilidad (aunque esta probabilidad no es igual al valor p y también depende de creencias previas).
Dependiendo de la calidad del experimento, podría medir el mismo efecto. tamaño del , pero podría no ser una anomalía (no un resultado improbable si la hipótesis nula fuera cierta).
Cuando observa un efecto pero no es significativo, de hecho (el efecto) todavía puede estar allí, pero no es significativo (las mediciones no indican que la hipótesis nula deba ser puesta en duda / rechazada con alta probabilidad). Significa que debe mejorar su experimento, recopilar más datos, para estar más seguro.
Entonces, en lugar del efecto de dicotomía versus ningún efecto, debe ir a las siguientes cuatro categorías:
Imagen de https://en.wikipedia.org/wiki/Equivalence_test que explica los dos procedimientos de prueba t de un solo lado (TOST)
Parece que estás en la categoría D, la prueba no es concluyente. Sus compañeros de trabajo pueden estar equivocados al decir que hay un efecto. Sin embargo, ¡es igualmente incorrecto decir que no hay ningún efecto!
fuente
Parece que están discutiendo el valor p frente a la definición de "Tendencia".
Si traza los datos en un gráfico de ejecución, puede ver una tendencia ... una serie de puntos de representación que muestran una tendencia que sube o baja con el tiempo.
Pero, cuando haces las estadísticas, el valor p sugiere que no es significativo.
Para que el valor p muestre poca importancia, pero para que vean una tendencia / corrida en la serie de datos ... esa sería una tendencia muy leve.
Entonces, si ese fuera el caso, recurriría al valor p ... IE: ok, sí, hay una tendencia / corrida en los datos ... pero es tan leve e insignificante que las estadísticas sugieren que no vale la pena continuar. análisis de.
Una tendencia insignificante es algo que puede atribuirse a algún tipo de sesgo en la investigación ... tal vez algo muy menor ... algo que puede ser una ocurrencia única en el experimento que creó una ligera tendencia.
Si yo fuera el gerente del grupo, les diría que dejen de perder tiempo y dinero buscando tendencias insignificantes y que busquen otras más significativas.
fuente
Parece que en este caso tienen poca justificación para su reclamo y solo están abusando de las estadísticas para llegar a la conclusión que ya tenían. Pero hay momentos en que está bien no ser tan estricto con los cortes de p-val. Este (cómo usar la significación estadística y los puntos de corte de pval) es un debate que se ha desatado desde que Fisher, Neyman y Pearson sentaron las bases de las pruebas estadísticas.
Supongamos que está creando un modelo y decide qué variables incluir. Recopila un poco de datos para hacer una investigación preliminar sobre posibles variables. Ahora hay una variable en la que el equipo de negocios está realmente interesado, pero su investigación preliminar muestra que la variable no es estadísticamente significativa. Sin embargo, la "dirección" de la variable corresponde a lo que el equipo de negocios esperaba, y aunque no alcanzó el umbral de importancia, estaba cerca. Quizás se sospechaba que tenía una correlación positiva con el resultado y obtuviste un coeficiente beta que fue positivo, pero el pval estaba un poco por encima del límite de 0.05.
En ese caso, puede continuar e incluirlo. Es una especie de estadística bayesiana informal: existía una fuerte creencia previa de que es una variable útil y la investigación inicial mostró cierta evidencia en esa dirección (¡pero no evidencia estadísticamente significativa!), Por lo que le da el beneficio de la duda y mantenerlo en el modelo. Quizás con más datos será más evidente qué relación tiene con el resultado de interés.
Otro ejemplo podría ser cuando está construyendo un nuevo modelo y observa las variables que se usaron en el modelo anterior; puede continuar incluyendo una variable marginal (una que está en la cúspide de importancia) para mantener cierta continuidad del modelo modelar.
Básicamente, dependiendo de lo que esté haciendo, hay razones para ser más y menos estrictos sobre este tipo de cosas.
Por otro lado, ¡también es importante tener en cuenta que la significación estadística no tiene que implicar una significación práctica! Recuerde que en el corazón de todo esto está el tamaño de la muestra. Recopile suficientes datos y el error estándar de la estimación se reducirá a 0. Esto hará cualquier tipo de diferencia, no importa cuán pequeña, 'estadísticamente significativa', incluso si esa diferencia podría no ser nada en el mundo real. Por ejemplo, supongamos que la probabilidad de que una moneda en particular caiga en la cara fuera de .500000000000001. Esto significa que, en teoría, podría diseñar un experimento que concluya que la moneda no es justa, pero para todos los efectos, la moneda podría tratarse como una moneda justa.
fuente