¿Hay alguna diferencia entre los siguientes términos o son los mismos?
- Parcialidad
- Sesgo sistemático
- Errores sistemáticos
Si existen algunas diferencias, explíquelas. ¿Se pueden reducir estos errores cuando se aumenta el tamaño de la muestra?
ACTUALIZACIÓN: Mi campo de interés es la inferencia estadística. Quiero decir que cómo diferenciamos estos términos como estadísticos.
measurement-error
bias
Biostat
fuente
fuente
Respuestas:
El término "sesgo" aparece de dos maneras en la literatura fundamental sobre estadística:
"... el sesgoEθ[δ(X)]−g(θ) , a veces llamado error sistemático, ... "[EL Lehmann, Teoría de la estimación puntual, 1983. Este es un texto clásico.] En la notación de Lehmann, que es estándar,Eθ es la expectativa cuando la distribución viene dada por el parámetro θ , δ es un estimador X es una observación y g(θ) es una propiedad de la distribución a estimar (el estimado y). En otras palabras, la observación (o secuencia de las mismas) es una variable aleatoria, que hace que la estimación sea aleatoria, y el sesgo es la desviación esperada entre la estimación y el estimado. Depende de la distribución (desconocida pero verdadera)θ , haciéndolo una función de la verdadera distribución. Lehmann dedica un capítulo entero a estimadores imparciales: aquellos con sesgo cero independientemente del valor deθ .
En la teoría de la medición, el "sesgo" (o "error sistemático" ) es una diferencia entre la expectativa de una medición y el verdadero valor subyacente. El sesgo puede ser el resultado de errores de calibración o deriva instrumental, por ejemplo. Compare este uso con el anterior: aquí, un sesgo es una propiedad de una medición, que es un proceso físico, mientras que antes era una propiedad de un estimador estadístico (que es un procedimiento matemáticamente definido para hacer conjeturas a partir de los datos).
El "sesgo sistemático" parece usarse solo cuando se distingue el sesgo del "error" aleatorio: el término "error" tiende a usarse principalmente para términos aleatorios con cero expectativas.
En muchos casos, el sesgo en el primer sentido disminuye a medida que aumenta la cantidad de datos: muchos estimadores sesgados en la práctica se vuelven cada vez menos sesgados con más datos (aunque esto no está teóricamente garantizado, porque el concepto de sesgo es muy amplio). Un buen ejemplo es el estimador de máxima verosimilitud de la varianza de una distribución cuandon sorteos independientes xi de esa distribución están disponibles. El estimador de ML es
parax¯=1n∑ni=1xi . Es bien sabido que esto es parcial; el estimadornn−1v^ es imparcial De donde, comon→∞ , v^→nn−1v^ se vuelve asintóticamente imparcial.
Sin embargo, el sesgo en el contexto de medición (el segundo sentido) generalmente no se puede reducir tomando más mediciones: el sesgo es inherente al procedimiento de medición en sí. Uno tiene que estimar y reducir el sesgo calibrando el procedimiento de medición o comparándolo con otros procedimientos que se sabe que no tienen sesgo (o menos), estiman el sesgo y lo compensan.
Esta breve descripción de la terminología tal como se usa para la inferencia estadística no reemplaza las respuestas extendidas y más especializadas ya publicadas. En cambio, está destinado a servir como una introducción a ellos y como una leve advertencia para desconfiar de las generalizaciones universales hechas en contextos limitados, como "los tres [términos] son equivalentes a 'error sistemático'", lo que claramente puede ser correcto. solo en un sentido limitado, porque las dos definiciones que he citado no son equivalentes. Leer las otras respuestas me ha alertado sobre la posibilidad de que la literatura en campos especializados como la epidemiología pueda estar usando términos estadísticos familiares y estándar como "sesgo" de maneras inesperadas, algunas de las cuales pueden contradecir definiciones estadísticas. En el final,
fuente
Si he aprendido algo a través de mis estudios de epidemiología es que este es un campo de minas donde no hay verdadero bien o mal. Me gustan las estadísticas porque al menos tiene un fundamento en matemáticas, mientras que la epidemiología es más de opinión. Dicho esto, intentaré responder a tu pregunta.
De M. Porta Un Diccionario de Epidemiología 5ª ed. no se menciona el sesgo sistemático y el error sistemático dice "Ver BIAS". Esto deja un sesgo que se describe como: “Desviación sistemática de resultados o inferencias de la verdad. ... conducen a resultados o conclusiones que son sistemáticamente (en oposición a al azar) diferentes de la verdad ". Diría que no existe un sesgo no sistemático, ya que todos desvían sus resultados de la estimación de riesgo real. Lo más importante sobre el sesgo es que no puede reducirlo aumentando el tamaño de la muestra .
Hay muchos tipos de sesgo, he oído que uno de los artículos originales sobre el sesgo contenía más de 300 tipos diferentes. Lo importante es identificarlos antes de comenzar su estudio y luego tratar de configurar su estudio / experimento para evitar sesgos. En estudios epidemiológicos es muy útil separar el sesgo en tres categorías:
El sesgo de selección es cuando selecciona el tipo incorrecto de individuos para su estudio. Digamos que está interesado en ver si trabajar en una mina de carbón es un riesgo: si busca a sus individuos de estudio en la mina de carbón, puede encontrar que son más saludables que la población general solo por el hecho de que los que son los enfermos ya no trabajan en la mina de carbón, es decir, selecciona a las personas más saludables y ya no estudia la población fuente, sino una submuestra. El sesgo de selección suele ser el tipo de sesgo más maligno porque es muy difícil de identificar.
El sesgo de información es cuando su recopilación de datos sobre el resultado o la exposición es defectuosa. Un error común es el cirujano que le pregunta a su paciente si está mejor después de la cirugía. Aquí, tanto el paciente podría no querer decepcionar al cirujano como informar un mejor resultado que él / ella de lo contrario, y el cirujano podría no querer admitir que la cirugía fue un fracaso, informe y sesgo del entrevistador.
El sesgo de información también se conoce como sesgo de observación. Cuando se trata de un error en una variable continua, es un error de medición, mientras que en la configuración de la clasificación tiene un sesgo de clasificación errónea. La clasificación errónea significa que un individuo del estudio puede terminar en la categoría incorrecta, un fumador puede clasificarse erróneamente como no fumador, ya sea por casualidad o por informar sesgo. Incluso si la clasificación errónea es por casualidad (clasificación errónea no diferencial), tenderá a subestimar el riesgo de manera sistemática, especialmente cuando tiene pocas categorías. Aunque un excelente estudio de Jurek et al. 2005 demostró que debe tener cuidado al hacer esta suposición basándose en un solo estudio. Con respecto a su pregunta, podría imaginar que este es el "sesgo no sistemático" que relaciona el sesgo sistemático.
Los factores de confusión son factores que están asociados tanto con la exposición como con el resultado y se relacionan más estrechamente con el individuo del estudio. Por ejemplo, Lambe et al. 2006 demostró que fumar durante el embarazo aumenta el riesgo de bajo rendimiento escolar, pero al observar a los hermanos en una subpoblación donde la madre había dejado de fumar durante su segundo embarazo, su rendimiento escolar fue igual de malo. Esto sugiere que fumar no es la causa del mal desempeño escolar, sino quizás un factor de confusión para otros factores sociales.
Este artículo de Sica et al. 2006 entra en más detalles. Para lo que tiene que estar preparado es que realmente hay una falta de consenso en el campo para la terminología. Mi sueño es que la OMS algún día produzca una lista de definiciones que sea fácil de entender, que tenga un sentido intuitivo y que finalmente pueda terminar el debate.
fuente
Las terminologías pueden variar de un campo a otro. Sin embargo, usando los términos definidos en los comentarios a continuación:
No, los tres son equivalentes a 'error sistemático'.
No, aumentar el tamaño de la muestra reduce el error aleatorio, no el error sistemático.
Comentario
Estos términos se toman del campo de la epidemiología, específicamente de la discusión del error de Rothman y sus colegas en los capítulos 9 y 10 de Epidemiología moderna .
Para resumir:
El objetivo de un investigador es proporcionar una estimación precisa de alguna medida (por ejemplo, media, riesgo relativo, razón de riesgo, etc.) dentro de una población. Una estimación precisa es una que es válida y precisa . Una estimación válida tendrá una estimación puntual (p. Ej., Media, riesgo relativo, razón de riesgo, etc.) cercana al valor real en la población. Una estimación precisa tendrá niveles de confianza estrechos alrededor de la estimación puntual. Además, una estimación puede ser internamente válida, relativa a la población de estudio, y externamente válida, relativa a una población generalizada.
Las desviaciones de la precisión son causadas por error . Hay dos tipos principales de error: error sistémico y error aleatorio .
El error sistémico, a menudo denominado sesgo, da como resultado estimaciones que no son válidas. El error sistémico incluye error debido a confusión, sesgo de selección y sesgo de información. La confusión generalmente se puede corregir con técnicas como la estratificación o la regresión. Tradicionalmente, el sesgo de selección e información se ha ignorado o solo se ha evaluado cualitativamente en los análisis, probablemente debido a la falta de familiaridad con los análisis de sesgo apropiados. Sin embargo, existen metodologías para el análisis de sesgo cuantitativo (por ejemplo, Lash TL y AK Fink (2003) ).
El error aleatorio produce estimaciones que no son precisas. El error aleatorio incluye error de muestreo y error de medición aleatorio, entre otros. Los métodos para aumentar la precisión incluyen aumentar el tamaño del estudio, aumentar la eficiencia del estudio y optimizar los análisis estadísticos de precisión como la agrupación y la regresión.
Actualizar
Para ilustrar por qué aumentar el tamaño de la muestra no disminuye el error sistemático con la analogía del tablero de dardos (copiado de esta publicación de CV ):
No importa cuántos dardos se lancen al tablero, la estimación puntual no se desplazará hacia la verdadera diana cuando haya un "sesgo alto". Aquí 'sesgo' es equivalente a 'error sistemático', y 'varianza' es equivalente a 'error aleatorio'.
fuente
Estos extractos de power point tienen información para complementar lo que jthetzel y Max Gordon han dado. Están orientados a los datos de la encuesta, y no son rigurosos ni formales, pero si quisieras ese tipo de respuesta, probablemente estarías buscando en libros de texto sobre teoría de la medición o métodos de encuesta.
fuente