¿Qué es un control de consistencia?

11

Me hicieron una pregunta como "¿Hiciste alguna verificación de consistencia en tu trabajo diario?" durante una entrevista telefónica para un puesto de bioestadístico. No se que contestar. Cualquier información es apreciada.

baisong
fuente

Respuestas:

17

A la lista de chl, que se enfoca en errores de procesamiento de datos francos, agregaría verificaciones para errores más sutiles para abordar las siguientes preguntas y problemas (dados en ningún orden en particular y ciertamente incompletos):

  1. Suponiendo la integridad de la base de datos, ¿son razonables los datos? ¿Se ajustan aproximadamente a las expectativas o los modelos convencionales, o sorprenderían a alguien familiarizado con datos similares?

  2. ¿Son los datos internamente consistentes? Por ejemplo, si se supone que un campo es la suma de otros dos, ¿lo es?

  3. ¿Qué tan completos son los datos? ¿Son lo que se especificaron durante la fase de planificación de la recopilación de datos? ¿Hay datos adicionales que no fueron planificados? Si es así, ¿por qué están allí?

  4. La mayoría de los análisis modelan implícita o explícitamente los datos de manera parsimoniosa e incluyen la posibilidad de variación de la descripción general. Cada uno de estos modelos sugiere su propia forma particular de identificar valores atípicos: los datos que se desvían notablemente de la descripción general. ¿Se hicieron intentos para identificar y comprender los valores atípicos en cada etapa de exploración y análisis?

  5. En muchos casos, es posible que el analista introduzca datos adicionales en el análisis para el control y la comprensión de la calidad. Por ejemplo, muchos conjuntos de datos en las ciencias naturales y sociales, así como en los negocios incluyen (al menos implícitamente) información de ubicación: identificadores de las regiones del Censo; nombres de países, estados, condados; códigos postales de clientes; y así. Incluso si, quizás especialmente si, la correlación espacial no es un elemento de la EDA o el modelado, el analista puede unir los datos a representaciones geográficas de las ubicaciones y mapearlos para buscar patrones y valores atípicos.

  6. Uno de los errores más insidiosos que pueden aparecer en un análisis es la pérdida de datos. Al extraer campos, resumir datos, reformatear conjuntos de datos, etc., si uno o dos elementos se eliminan de un conjunto de datos grande, a menudo no habrá nada que lo señale. Pero ocasionalmente se pierde algo importante, para la vergüenza extrema si alguna vez se descubre. Las comprobaciones simples, como comparar los conteos antes y después y los totales de datos, deben realizarse de forma rutinaria para protegerse de tales cosas.

  7. Otro error insidioso está asociado con la conversión de tipos en la informática digital. Por ejemplo, recientemente tuve que construir una clave (para unir dos archivos de datos) a partir de un campo de coma flotante. El software (Stata) importó el campo como un flotante de precisión único en un archivo pero, por cualquier razón, como un flotante de doble precisión en otro archivo. La mayoría de las veces los valores coincidían pero, en algunos casos debido a diferentes redondeos, no lo hacían. Algunos datos se perdieron como resultado. Capté esto solo debido a la aplicación de (6). En general, vale la pena verificar la consistencia de los tipos de datos de campo: ints vs. flotantes, longitudes de cadenas, etc.

  8. Si alguna vez se usa una hoja de cálculo en cualquier etapa del análisis, espere lo peor. El problema es que incluso una pulsación perdida puede dañar los datos de forma invisible. Cuando los resultados son críticos, vale la pena seguir yendo y viniendo (exportar a la hoja de cálculo, hacer el análisis, importar de nuevo y comparar sistemáticamente) para asegurarse de que no ocurra nada malo.

  9. Cada vez que se actualiza una base de datos, vale la pena pausar y realizar comparaciones sistemáticas y completas con la anterior para asegurarse de que nada se haya perdido, cambiado o dañado en el proceso.

  10. En un nivel superior, cada vez que se realiza una estimación (como una regresión, PCA, lo que sea), puede valer la pena realizarla utilizando una técnica diferente para verificar la sensibilidad o incluso posibles errores en el código. Por ejemplo, siga una regresión MCO mediante alguna forma de regresión robusta y compare los coeficientes. Para obtener resultados importantes, puede ser reconfortante obtener las respuestas utilizando dos (o más) plataformas de software diferentes.

Quizás el mejor tipo de "verificación de consistencia" general que cualquiera puede realizar es graficar todo, temprano y con frecuencia.

whuber
fuente
8

Supongo que esto tiene que ver con alguna forma de Control de calidad sobre la integridad de los datos , y más específicamente que verifica regularmente que su base de datos de trabajo no esté dañada (debido a un error durante la transferencia, copia o después de una actualización o una verificación de integridad ). Esto también puede significar asegurarse de que su cálculo intermedio se verifique dos veces (ya sea manualmente o mediante código adicional o macros en su software estadístico).

Puede encontrar más información aquí: la guía de referencia ICH E6 (R1) sobre la Guía para las buenas prácticas clínicas de la EMEA, las Guías sobre buenas prácticas de laboratorio clínico o la Caja de herramientas del investigador del estudio de investigación clínica .

chl
fuente
1

para agregar a los otros puntos buenos

Cuando uso Excel, siempre genero un número de caso como la primera columna para cada línea, luego se copia a la última columna. Excel parece muy feliz de ordenar solo unas pocas columnas a la vez, lo que causa caos si no tiene cuidado de seleccionarlas todas. Es posible que ni siquiera se dé cuenta de que esto ha sucedido. Ser capaz de verificar que los números de caso coincidan en la primera y última columna de una línea es una precaución útil.

Siempre reviso los valores atípicos.

Se recomienda la doble entrada de datos por personas separadas para trabajos críticos.

Al ingresar datos de documentos en papel, es una buena idea usar un identificador de referencia para poder volver a consultar el documento exacto y la línea de la que deriva la entrada, la numeración de los formularios de entrada de datos ayuda con esto.

Editar - Otro elemento - Sé que editar hojas de cálculo está lleno de problemas, pero es mucho más fácil limpiar la entrada de datos con ellos. Sin embargo, también mantengo la versión original sin editar, para que cualquier cambio pueda ser verificado o, en el peor de los casos, restaurado.

Robert Jones
fuente