¿Qué es intuitivamente el "sesgo"?

Estoy luchando por comprender el concepto de sesgo en el contexto del análisis de regresión lineal.

¿Cuál es la definición matemática de sesgo?
¿Qué es exactamente sesgado y por qué / cómo?
¿Ejemplo ilustrativo?

regression terminology bias definition fabianista
fuente

Respuestas:

El sesgo es la diferencia entre el valor esperado de un estimador y el valor verdadero que se estima. Por ejemplo, la media muestral para una muestra aleatoria simple (SRS) es un estimador imparcial de la media poblacional porque si toma todos los SRS posibles encuentre sus medias y tome la media de esas medias, obtendrá la media poblacional (para finito poblaciones esto es solo álgebra para mostrar esto). Pero si usamos un mecanismo de muestreo que de alguna manera está relacionado con el valor, entonces la media puede ser sesgada, piense en una muestra de marcación de dígitos aleatorios que haga una pregunta sobre el ingreso.

También hay algunos estimadores que están sesgados naturalmente. La media recortada estará sesgada para una población / distribución sesgada. La varianza estándar es imparcial para los SRS si la media de la población se usa con el denominador o la media de la muestra se usa con el denominador . $n$ $n-1$

Aquí hay un ejemplo simple usando R, generamos un montón de muestras de una normal con media 0 y desviación estándar 1, luego calculamos la media promedio, la varianza y la desviación estándar de las muestras. Observe qué tan cerca están los promedios promedio y de varianza de los valores verdaderos (el error de muestreo significa que no serán exactos), ahora compare la media sd, es un estimador sesgado (aunque no muy sesgado).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

En la regresión podemos obtener estimadores sesgados de pendientes haciendo una regresión gradual. Es más probable que una variable se mantenga en una regresión gradual si la pendiente estimada está más lejos de 0 y es más probable que se caiga si está más cerca de 0, por lo que este es un muestreo sesgado y las pendientes en el modelo final tenderán a ser más desde 0 que la verdadera pendiente. Técnicas como el sesgo de regresión del lazo y la cresta se inclinan hacia 0 para contrarrestar el sesgo de selección lejos de 0.

Greg Snow
fuente

SRS?

$\text{ }$

cardenal

@cardinal Muestra aleatoria simple.

whuber

@whuber: Wow. Si bien la abreviatura tiene sentido, no recuerdo haberla encontrado en entornos más formales. ¿Hay subcampos particulares o áreas aplicadas donde ese es un inicialismo "estándar"?

cardenal

@cardinal Ver en.wikipedia.org/wiki/Simple_random_sample

whuber

(+1) La edición de @ whuber fue útil para aclarar esta respuesta.

cardenal

Sesgo significa que el valor esperado del estimador no es igual al parámetro de población.

Intuitivamente en un análisis de regresión, esto significaría que la estimación de uno de los parámetros es demasiado alta o demasiado baja. Sin embargo, las estimaciones de regresión de mínimos cuadrados ordinarios son AZUL, que significa mejores estimadores lineales insesgados. En otras formas de regresión, las estimaciones de los parámetros pueden estar sesgadas. Esta puede ser una buena idea, porque a menudo existe una compensación entre sesgo y varianza. Por ejemplo, la regresión de crestas a veces se usa para reducir la varianza de las estimaciones cuando hay colinealidad.

Un ejemplo simple puede ilustrar esto mejor, aunque no en el contexto de regresión. Suponga que pesa 150 libras (verificado en una balanza que lo tiene en una canasta y un montón de pesas en la otra canasta). Ahora, tienes dos básculas de baño. Te pesas 5 veces en cada uno.

La escala 1 da pesos de 152, 151, 151.5, 150.5 y 152.

La escala 2 da pesos de 145, 155, 154, 146 y 150.

La escala 1 está sesgada, pero tiene una varianza menor; El promedio de los pesos no es su verdadero peso. La escala 2 es imparcial (el promedio es 150), pero tiene una varianza mucho mayor.

¿Qué escala es "mejor"? Depende de lo que quieras que haga la báscula.

Peter Flom - Restablece a Monica
fuente

Aunque la definición de sesgo es correcta, me temo que los ejemplos lo confunden con inexactitud, ¡lo cual es algo completamente diferente! El sesgo es una propiedad de un procedimiento estadístico (un estimador) mientras que la precisión es una propiedad de un proceso de medición . (-1).

whuber

@whuber: Sí, estoy de acuerdo con eso. Y, sigo pensando que, aun así, es necesario aclarar la diferencia entre la expectativa matemática y un promedio muestral, ya que se relacionan con el sesgo.

cardenal

No, no estaba tratando de decir nada sobre "inexactitud" (que es terriblemente difícil de definir) sino sobre "varianza". Una escala es imparcial, la otra escala tiene poca varianza. No utilicé la palabra "precisa" o "precisión". Una báscula que tiende a estimar su peso demasiado alto (o demasiado bajo) está sesgada.

Peter Flom - Restablece a Monica

Pero este sentido de "sesgo" es solo un sinónimo de inexacto; no es lo mismo que la definición que dio en la primera línea. Además, como señala @cardinal, el ejemplo también confunde una expectativa con la media de una muestra en particular.

whuber

Estoy de acuerdo con @whuber aquí. En el sentido (correcto) de sesgo que el PO está preguntando, es que no la escala que es parcial o imparcial, sino más bien todo lo estimación de su peso que los que se derivan de sus medidas!

cardenal

En el análisis de regresión lineal, el sesgo se refiere al error que se introduce al aproximar un problema de la vida real, que puede ser complicado, por un modelo mucho más simple. En términos simples, asume un modelo lineal simple como y * = (a *) x + b * donde, como en la vida real, el problema comercial podría ser y = ax ^ 3 + bx ^ 2 + c.

Se puede decir que la prueba esperada MSE (error cuadrático medio) de un problema de regresión se puede descomponer como a continuación. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Sesgo (f * (x0))] ^ 2 + Var (e)

f * -> forma funcional asumida para el modelo de regresión lineal y0 -> valor de respuesta original registrado en los datos de prueba x0 -> valor predictor original registrado en los datos de prueba e -> error irreducible Entonces, el objetivo es seleccionar el mejor método para llegar a un modelo que logra baja varianza y bajo sesgo.

Nota: Una introducción al aprendizaje estadístico por Trevor Hastie y Robert Tibshirani tiene una buena idea sobre este tema

ganga
fuente

Esto se refiere a menudo por algo como "error de especificación errónea del modelo" para no confundirlo con la definición estándar de sesgo dada en la respuesta aceptada. De lo contrario, sería imposible dar sentido a la afirmación (correcta) de que OLS es un estimador imparcial de los coeficientes de los regresores.

Whuber