Estoy tratando de comprender mejor la significación estadística, los tamaños del efecto y similares.
Tengo la percepción (tal vez está mal) de que incluso los regresores irrelevantes a menudo se vuelven estadísticamente significativos en muestras grandes . Por irrelevante quiero decir que no hay una explicación del tema por qué el regresor debería estar relacionado con la variable dependiente. Por lo tanto, la irrelevancia en esta publicación es un concepto puramente temático y no estadístico.
Sé que un regresor será estadísticamente significativo dada una muestra suficientemente grande a menos que el efecto de la población sea exactamente cero (como se discute aquí ). Por lo tanto, un regresor irrelevante que parece estadísticamente significativo en una muestra grande tiene un tamaño de efecto distinto de cero en la población.
Preguntas:
- ¿Cómo es que un regresor irrelevante resulta estadísticamente significativo?
- ¿Debería buscar una explicación del tema (es decir, tratar de negar la irrelevancia) o es un fenómeno estadístico?
Esta es una continuación de una publicación en la que estaba tratando de aclarar cómo curar este efecto. Mientras tanto, aquí estoy preguntando por qué sucede en primer lugar.
fuente
Respuestas:
Preguntas:
Creo que es útil pensar en lo que sucede cuando el tamaño de la muestra se acerca a la población. Las pruebas de significación tienen la intención de darle una idea de si no existe un efecto en la población. Esta es la razón por la cual cuando se trabaja con datos del censo (que encuesta a la población), las pruebas de significación no tienen sentido (porque, ¿a qué intentan generalizar?).
Con eso en mente, ¿qué significa "un efecto en la población"? Simplemente significa cualquier relación entre variables en la población, independientemente de cuán pequeña (ya sea una diferencia de 1 punto o 1 persona), incluso si esa relación se debe a la posibilidad y la aleatoriedad en el universo.
Por lo tanto, a medida que su muestra se acerca al tamaño de la población, las pruebas de significación se vuelven cada vez menos significativas porque cualquier diferencia será "estadísticamente significativa". Lo que le interesaría más es el tamaño del efecto, que es análogo a "prácticamente significativo".
Es un fenómeno: debe observar los tamaños de los efectos.
fuente
Incluso si el tamaño de su muestra no se acerca a su población, los efectos pequeños se vuelven significativos en muestras grandes. Esto es una consecuencia de lo que significa significancia estadística:
Si su pregunta es sobre todas las personas en la Tierra, entonces si toma una muestra de 1,000,000 (no cercana a 7,000,000,000), incluso los efectos muy pequeños serán significativos, porque es muy poco probable encontrar tales estadísticas de prueba en muestras grandes cuando el valor nulo es verdadero .
Hay muchos problemas con las pruebas de significación, discutidos en muchos lugares. Este es uno de ellos. La "cura" es mirar los tamaños del efecto y los intervalos de confianza.
fuente
He tomado prestada información de @QxV para proporcionar una explicación de la presencia de un efecto de población, incluso si el conocimiento del tema no sugiere tal efecto.
Supongamos que hay un proceso de generación de población (PGP) que genera poblaciones con característicasy y X . La fórmula PGP es tal quey y x son independientes hasta un término de error aleatorio. Precisamente debido a este término de error aleatorio, cualquier realización finitayrealized y xrealized tiene probabilidad cero de falta de correlación exacta, es decir P(yrealized⊥xrealized)=0 . Si es así, con probabilidad uno hay un efecto de población. Así es como se producen los efectos en la población.
Una vez que existe un efecto de población, es una cuestión de tamaño de la muestra cuándo lo detectaremos en la muestra y cuándo será estadísticamente significativo.
fuente
Además de las excelentes respuestas ya publicadas, intentaré desde otro punto de vista. Todos los modelos son aproximaciones, en cierto sentido ... Mire algún modelo de regresión, y alguna variable irrelevante es significativa. ¿Qué puede explicarlo?
Tal vez simplemente no sea irrelevante, que el consenso científico actual sobre ese asunto sea simplemente incorrecto . Aparte de eso:
Podría ser un sustituto o proxy para alguna variable omitida que sea relevante y que esté correlacionada con la variable irrelevante.
Algunas variables relevantes, incluidas linealmente en el modelo, podrían estar actuando de manera no lineal, y su variable irrelevante podría ser un sustituto de esa parte de la variable relevante.
Alguna interacción entre dos variables relevantes es importante, pero no se incluye en el modelo. Su variable irrelevante podría ser un sustituto de esa interacción omitida.
La variable irrelevante podría estar muy altamente correlacionada con alguna variable importante, dando lugar a coeficientes negativamente correlacionados. Esto podría ser importante especialmente si hay errores de medición en estas variables.
Podría haber algunas observaciones con un apalancamiento muy alto, lo que lleva a estimaciones extrañas.
Seguramente otros ... un punto importante es que un modelo de regresión lineal podría ser una muy buena aproximación con una muestra pequeña, solo los efectos grandes serán significativos. Pero una muestra más grande conducirá a una varianza más baja, pero no puede reducir el sesgo debido a las aproximaciones . Entonces, con muestras más grandes, esas deficiencias del modelo se vuelven manifiestas y eventualmente dominarán sobre la varianza.
fuente
No. Los regresores irrelevantes no se vuelven estadísticamente significativos a medida que aumenta el tamaño de la muestra. Pruebe el siguiente código en R.
y <- rnorm (10000000)
x <- rnorm (10000000)
resumen (lm (y ~ x))
fuente