¿Diferencia entre sesgo, sesgo sistemático y error sistemático?

9

¿Hay alguna diferencia entre los siguientes términos o son los mismos?

Parcialidad
Sesgo sistemático
Errores sistemáticos

Si existen algunas diferencias, explíquelas. ¿Se pueden reducir estos errores cuando se aumenta el tamaño de la muestra?

ACTUALIZACIÓN: Mi campo de interés es la inferencia estadística. Quiero decir que cómo diferenciamos estos términos como estadísticos.

measurement-error bias Biostat
fuente

1

Sería útil indicar en qué campo de estudio está interesado. Está claro a partir de las respuestas ya ofrecidas, por ejemplo, que "sesgo" tiene significados especializados que difieren del análisis estadístico (en la teoría de la estimación, el sesgo es la diferencia entre la expectativa de un estimador y el valor de su estimado). Su pregunta ahora está etiquetada con "epidemiología" porque las respuestas provienen actualmente de ese campo, pero eso podría o no ser lo que realmente le interesa.

whuber

1

Según tengo entendido, en estadística el sesgo es la diferencia entre estimador y estimado y , en epidemiología, el sesgo es la diferencia no aleatoria entre estimador y estimado . Cuando veo términos como "sesgo" y "error sistemático" en el contexto de la bioestadística, tiendo a pensar en la interpretación epidemiológica. Pero, de nuevo, como estudiante de epidemiología, soy parcial. Este conjunto de diapositivas de Sander Groenlandia toca ambos conceptos, pero se centra en la epidemiología.

jthetzel

13

El término "sesgo" aparece de dos maneras en la literatura fundamental sobre estadística:

"... el sesgo $\mathbb{E}_\theta[\delta(X)] - g(\theta)$ , a veces llamado error sistemático, ... "[EL Lehmann, Teoría de la estimación puntual, 1983. Este es un texto clásico.] En la notación de Lehmann, que es estándar, $\mathbb{E}_\theta$ es la expectativa cuando la distribución viene dada por el parámetro $\theta$ , $\delta$ es un estimador $X$ es una observación y $g(\theta)$ es una propiedad de la distribución a estimar (el estimado y). En otras palabras, la observación (o secuencia de las mismas) es una variable aleatoria, que hace que la estimación sea aleatoria, y el sesgo es la desviación esperada entre la estimación y el estimado. Depende de la distribución (desconocida pero verdadera) $\theta$ , haciéndolo una función de la verdadera distribución. Lehmann dedica un capítulo entero a estimadores imparciales: aquellos con sesgo cero independientemente del valor de $\theta$ .
En la teoría de la medición, el "sesgo" (o "error sistemático" ) es una diferencia entre la expectativa de una medición y el verdadero valor subyacente. El sesgo puede ser el resultado de errores de calibración o deriva instrumental, por ejemplo. Compare este uso con el anterior: aquí, un sesgo es una propiedad de una medición, que es un proceso físico, mientras que antes era una propiedad de un estimador estadístico (que es un procedimiento matemáticamente definido para hacer conjeturas a partir de los datos).

El "sesgo sistemático" parece usarse solo cuando se distingue el sesgo del "error" aleatorio: el término "error" tiende a usarse principalmente para términos aleatorios con cero expectativas.

En muchos casos, el sesgo en el primer sentido disminuye a medida que aumenta la cantidad de datos: muchos estimadores sesgados en la práctica se vuelven cada vez menos sesgados con más datos (aunque esto no está teóricamente garantizado, porque el concepto de sesgo es muy amplio). Un buen ejemplo es el estimador de máxima verosimilitud de la varianza de una distribución cuando $n$ sorteos independientes $x_i$ de esa distribución están disponibles. El estimador de ML es

\hat{v} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2},

$\hat{v} = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2,$

para $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$ . Es bien sabido que esto es parcial; el estimador $\frac{n}{n-1}\hat{v}$ es imparcial De donde, como $n\to\infty$ , $\hat{v}\to\frac{n}{n-1}\hat{v}$ se vuelve asintóticamente imparcial.

Sin embargo, el sesgo en el contexto de medición (el segundo sentido) generalmente no se puede reducir tomando más mediciones: el sesgo es inherente al procedimiento de medición en sí. Uno tiene que estimar y reducir el sesgo calibrando el procedimiento de medición o comparándolo con otros procedimientos que se sabe que no tienen sesgo (o menos), estiman el sesgo y lo compensan.

Esta breve descripción de la terminología tal como se usa para la inferencia estadística no reemplaza las respuestas extendidas y más especializadas ya publicadas. En cambio, está destinado a servir como una introducción a ellos y como una leve advertencia para desconfiar de las generalizaciones universales hechas en contextos limitados, como "los tres [términos] son equivalentes a 'error sistemático'", lo que claramente puede ser correcto. solo en un sentido limitado, porque las dos definiciones que he citado no son equivalentes. Leer las otras respuestas me ha alertado sobre la posibilidad de que la literatura en campos especializados como la epidemiología pueda estar usando términos estadísticos familiares y estándar como "sesgo" de maneras inesperadas, algunas de las cuales pueden contradecir definiciones estadísticas. En el final,

whuber
fuente

1

Gracias por una publicación interesante. Sospecho que muchos epidemiólogos "toman prestados" términos de los estadísticos, los adaptan a su entorno y luego ... debido a la falta de una base sólida ... se convierte en un desastre

Max Gordon

@Max Gordon: whuber ofrece una gran respuesta. Quizás otros campos no hayan tomado prestados términos al azar de las estadísticas matemáticas, sino términos definidos para adaptarse a los objetivos del campo. En cualquier caso, es útil para los estadísticos, epidemiólogos y otros ser conscientes de estas diferencias sutiles pero significativas en la terminología, especialmente dada la prevalencia de los esfuerzos de colaboración interdisciplinarios.

jthetzel

+1 gran respuesta! Muy claro, y aún riguroso y conciso.

gung - Restablece a Monica

@jthtzel, las estadísticas matemáticas no necesitan interpretarse como algo que tenga varios significados. Es una ciencia dirigida por aplicaciones que implica que se ocupa de los problemas asociados con la medición (estadística) y la verdad, es decir, las matemáticas. A partir de ahora, la literatura sugiere que el error de medición se comporta aleatoriamente y, por lo tanto, una estadística (media y varianza) no se ve afectada. Y en el caso de una media, el llamado sesgo constante podría causar un aumento o una disminución de la estimación real. Pero, la varianza y la DE no se ven afectadas.

Subhash C. Davar

4

Si he aprendido algo a través de mis estudios de epidemiología es que este es un campo de minas donde no hay verdadero bien o mal. Me gustan las estadísticas porque al menos tiene un fundamento en matemáticas, mientras que la epidemiología es más de opinión. Dicho esto, intentaré responder a tu pregunta.

De M. Porta Un Diccionario de Epidemiología 5ª ed. no se menciona el sesgo sistemático y el error sistemático dice "Ver BIAS". Esto deja un sesgo que se describe como: “Desviación sistemática de resultados o inferencias de la verdad. ... conducen a resultados o conclusiones que son sistemáticamente (en oposición a al azar) diferentes de la verdad ". Diría que no existe un sesgo no sistemático, ya que todos desvían sus resultados de la estimación de riesgo real. Lo más importante sobre el sesgo es que no puede reducirlo aumentando el tamaño de la muestra .

Hay muchos tipos de sesgo, he oído que uno de los artículos originales sobre el sesgo contenía más de 300 tipos diferentes. Lo importante es identificarlos antes de comenzar su estudio y luego tratar de configurar su estudio / experimento para evitar sesgos. En estudios epidemiológicos es muy útil separar el sesgo en tres categorías:

Sesgo de selección
Sesgo de información
Confuso

El sesgo de selección es cuando selecciona el tipo incorrecto de individuos para su estudio. Digamos que está interesado en ver si trabajar en una mina de carbón es un riesgo: si busca a sus individuos de estudio en la mina de carbón, puede encontrar que son más saludables que la población general solo por el hecho de que los que son los enfermos ya no trabajan en la mina de carbón, es decir, selecciona a las personas más saludables y ya no estudia la población fuente, sino una submuestra. El sesgo de selección suele ser el tipo de sesgo más maligno porque es muy difícil de identificar.

El sesgo de información es cuando su recopilación de datos sobre el resultado o la exposición es defectuosa. Un error común es el cirujano que le pregunta a su paciente si está mejor después de la cirugía. Aquí, tanto el paciente podría no querer decepcionar al cirujano como informar un mejor resultado que él / ella de lo contrario, y el cirujano podría no querer admitir que la cirugía fue un fracaso, informe y sesgo del entrevistador.

El sesgo de información también se conoce como sesgo de observación. Cuando se trata de un error en una variable continua, es un error de medición, mientras que en la configuración de la clasificación tiene un sesgo de clasificación errónea. La clasificación errónea significa que un individuo del estudio puede terminar en la categoría incorrecta, un fumador puede clasificarse erróneamente como no fumador, ya sea por casualidad o por informar sesgo. Incluso si la clasificación errónea es por casualidad (clasificación errónea no diferencial), tenderá a subestimar el riesgo de manera sistemática, especialmente cuando tiene pocas categorías. Aunque un excelente estudio de Jurek et al. 2005 demostró que debe tener cuidado al hacer esta suposición basándose en un solo estudio. Con respecto a su pregunta, podría imaginar que este es el "sesgo no sistemático" que relaciona el sesgo sistemático.

Los factores de confusión son factores que están asociados tanto con la exposición como con el resultado y se relacionan más estrechamente con el individuo del estudio. Por ejemplo, Lambe et al. 2006 demostró que fumar durante el embarazo aumenta el riesgo de bajo rendimiento escolar, pero al observar a los hermanos en una subpoblación donde la madre había dejado de fumar durante su segundo embarazo, su rendimiento escolar fue igual de malo. Esto sugiere que fumar no es la causa del mal desempeño escolar, sino quizás un factor de confusión para otros factores sociales.

Este artículo de Sica et al. 2006 entra en más detalles. Para lo que tiene que estar preparado es que realmente hay una falta de consenso en el campo para la terminología. Mi sueño es que la OMS algún día produzca una lista de definiciones que sea fácil de entender, que tenga un sentido intuitivo y que finalmente pueda terminar el debate.

Max Gordon
fuente

Si dice que el sesgo nunca disminuye, ¿cómo justificaría esta definición? 'Un estimador asintóticamente imparcial es un estimador que es imparcial ya que el tamaño de la muestra tiende al infinito'.

Biostat

Estoy de acuerdo con @jthetzel, no estoy seguro de entender bien tu pregunta. Una estimación imparcial es aquella en la que no hay sesgo y en la que puede confiar en el tamaño de su muestra, recostarse y dejar que las estadísticas hagan el trabajo (... y sí, probablemente nunca ocurra en la realidad donde siempre tiene algún tipo de sesgo ) Intento que sea simple: el sesgo es para mí siempre un error sistemático, pero como dije, hay muchos libros sobre este tema y, lamentablemente, muchos están escritos por personas que apenas comprenden las estadísticas. Pregúntele a un epidemiólogo sobre la modificación del efecto: muchos (¿la mayoría?) Lo consideran como una especie de magia ...

Max Gordon

4

Las terminologías pueden variar de un campo a otro. Sin embargo, usando los términos definidos en los comentarios a continuación:

¿Hay alguna diferencia entre los siguientes términos o son los mismos?

No, los tres son equivalentes a 'error sistemático'.

¿Se pueden reducir estos errores cuando se aumenta el tamaño de la muestra?

No, aumentar el tamaño de la muestra reduce el error aleatorio, no el error sistemático.

Comentario

Estos términos se toman del campo de la epidemiología, específicamente de la discusión del error de Rothman y sus colegas en los capítulos 9 y 10 de Epidemiología moderna .

Para resumir:

El objetivo de un investigador es proporcionar una estimación precisa de alguna medida (por ejemplo, media, riesgo relativo, razón de riesgo, etc.) dentro de una población. Una estimación precisa es una que es válida y precisa . Una estimación válida tendrá una estimación puntual (p. Ej., Media, riesgo relativo, razón de riesgo, etc.) cercana al valor real en la población. Una estimación precisa tendrá niveles de confianza estrechos alrededor de la estimación puntual. Además, una estimación puede ser internamente válida, relativa a la población de estudio, y externamente válida, relativa a una población generalizada.

Las desviaciones de la precisión son causadas por error . Hay dos tipos principales de error: error sistémico y error aleatorio .

El error sistémico, a menudo denominado sesgo, da como resultado estimaciones que no son válidas. El error sistémico incluye error debido a confusión, sesgo de selección y sesgo de información. La confusión generalmente se puede corregir con técnicas como la estratificación o la regresión. Tradicionalmente, el sesgo de selección e información se ha ignorado o solo se ha evaluado cualitativamente en los análisis, probablemente debido a la falta de familiaridad con los análisis de sesgo apropiados. Sin embargo, existen metodologías para el análisis de sesgo cuantitativo (por ejemplo, Lash TL y AK Fink (2003) ).

El error aleatorio produce estimaciones que no son precisas. El error aleatorio incluye error de muestreo y error de medición aleatorio, entre otros. Los métodos para aumentar la precisión incluyen aumentar el tamaño del estudio, aumentar la eficiencia del estudio y optimizar los análisis estadísticos de precisión como la agrupación y la regresión.

Actualizar

Para ilustrar por qué aumentar el tamaño de la muestra no disminuye el error sistemático con la analogía del tablero de dardos (copiado de esta publicación de CV ):

Analogía del tablero de dardos

No importa cuántos dardos se lancen al tablero, la estimación puntual no se desplazará hacia la verdadera diana cuando haya un "sesgo alto". Aquí 'sesgo' es equivalente a 'error sistemático', y 'varianza' es equivalente a 'error aleatorio'.

jthetzel
fuente

Si dice que el sesgo nunca disminuye, ¿cómo justificaría esta definición? 'Un estimador asintóticamente imparcial es un estimador que es imparcial ya que el tamaño de la muestra tiende al infinito'.

Biostat

@biostat: un estimador imparcial no contiene ningún error sistemático, pero podría contener un error aleatorio. Por lo tanto, a medida que aumenta el tamaño de la muestra, la varianza disminuye y el estimador converge en el valor verdadero del parámetro en la población. Un estimador sesgado contendría un error sistemático y no convergería en el valor verdadero del parámetro en la población (a menos que los sesgos múltiples en el estimador se cancelaran entre sí).

jthetzel

@biostat: Quizás otra forma de pensarlo: 1) Una distribución de probabilidad del estimador sesgada asintóticamente podría incluir el valor verdadero en tamaños de muestra pequeños, entre otros valores, pero convergerá en un valor diferente al valor verdadero ya que el tamaño de la muestra tiende al infinito . 2) La distribución de probabilidad de un estimador asintóticamente imparcial puede incluir el valor verdadero en tamaños de muestra pequeños, entre otros valores, pero convergerá en el valor verdadero ya que el tamaño de la muestra tiende al infinito.

jthetzel

¿Entonces el sesgo y el error sistemático no son lo mismo? porque aquí el sesgo puede tener un error aleatorio como dijiste? ¿Que pensarias?

Biostat

@biostat: Como se indicó anteriormente, las terminologías pueden variar de un campo a otro. Definí el sesgo como error sistemático. Parece que estás definiendo sesgo como error. En epidemiología, el sesgo es un error sistemático, al menos para aquellos que siguen la terminología del libro de texto canónico de Rothman. Quizás pueda agregar contexto a su pregunta original para dirigir las respuestas en la dirección adecuada.

jthetzel

1

Estos extractos de power point tienen información para complementar lo que jthetzel y Max Gordon han dado. Están orientados a los datos de la encuesta, y no son rigurosos ni formales, pero si quisieras ese tipo de respuesta, probablemente estarías buscando en libros de texto sobre teoría de la medición o métodos de encuesta.

rolando2
fuente

2

Mientras lo hacemos, aquí hay otro conjunto de diapositivas de Groenlandia.

jthetzel

¿Diferencia entre sesgo, sesgo sistemático y error sistemático?

Respuestas: