Ok, advertencia justa: esta es una pregunta filosófica que no involucra números. He estado pensando mucho sobre cómo los errores se infiltran en los conjuntos de datos a lo largo del tiempo y cómo deberían ser tratados por los analistas, ¿o si realmente debería importar?
En cuanto a los antecedentes, estoy haciendo el análisis de un estudio a largo plazo que involucra muchos conjuntos de datos recopilados por probablemente 25 personas durante 7-8 años; nadie ha reunido todos los datos en una estructura coherente (ese es mi trabajo). He estado haciendo mucha entrada de datos (transcribiendo de fotocopias de viejos cuadernos de laboratorio) y sigo encontrando pequeños errores de transcripción que hicieron otras personas, y también encuentro entradas de datos que son difíciles o imposibles de leer, principalmente porque la tinta se ha desvanecido con el tiempo. Estoy usando el contexto para hacer 'mejores conjeturas' sobre lo que dicen los datos y dejar los datos señalados por completo si no estoy bastante seguro. Pero sigo pensando en el hecho de que cada vez que se copian datos, la frecuencia de errores aumentará inevitablemente hasta que los datos originales se pierdan por completo.
Por lo tanto, esto me lleva a pensar: además de los errores de instrumentos / medición y los errores de registro, hay un componente fundamental de 'error de manejo de datos' que aumentará con el tiempo y con un mayor manejo de los datos (nota al margen: esto es probablemente solo otra forma de establecer la segunda ley de la termodinámica, ¿verdad? La entropía de datos siempre aumentará). En consecuencia, me pregunto si debería introducirse algún tipo de 'corrección' para tener en cuenta el historial de vida de los conjuntos de datos (algo parecido a una corrección de Bonferroni). En otras palabras, ¿deberíamos suponer que los conjuntos de datos más antiguos o más copiados son menos precisos, y si es así, debemos ajustar los resultados en consecuencia?
Pero mi otro pensamiento es que los errores son una parte inherente de la recopilación de datos y el manejo de datos, y dado que todas las pruebas estadísticas se han desarrollado con datos del mundo real, ¿quizás estas fuentes de error ya están "incluidas" en el análisis?
Además, otro punto que vale la pena mencionar es que, dado que los errores de datos son aleatorios, es mucho más probable que reduzcan la fuerza de un hallazgo que lo mejoren; en otras palabras, los errores de manejo de datos conducirían a errores de Tipo 2, no a errores de Tipo 1 . Por lo tanto, en muchos contextos, si usaba datos antiguos / cuestionables y aún encontraba un efecto, eso aumentaría su confianza en que el efecto es real (porque fue lo suficientemente fuerte como para sobrevivir a la adición de un error aleatorio al conjunto de datos). Entonces, por esa razón, ¿tal vez la 'corrección' debería ir en sentido contrario (aumentar el nivel alfa requerido para un 'hallazgo'), o simplemente no molestarnos?
De todos modos, lamento ser tan detallado y obtuso, no estoy realmente seguro de cómo hacer esta pregunta de manera más concisa. Gracias por soportarme.
Respuestas:
Secundo la sugerencia de @Aksakal: si el analista considera que el error de medición es potencialmente importante, puede y debe modelarse explícitamente como parte del proceso de generación de datos.
Veo varias consideraciones que argumentan en contra de la introducción de un factor de corrección genérico basado, por ejemplo, en la antigüedad del conjunto de datos.
Primero, la edad puede ser un indicador muy pobre del grado de deterioro de los datos. Aparentemente, la tecnología de duplicación, compresión y conservación, y el grado de esfuerzo y cuidado necesarios para verificar la transcripción correcta, son los factores importantes. Algunos textos antiguos (por ejemplo, La Biblia) se han conservado durante siglos con una degradación aparentemente nula. Su ejemplo de VHS, si bien es legítimo, en realidad es inusual, ya que cada evento de duplicación siempre introduce errores, y no hay formas fáciles de verificar y corregir los errores de transcripción, si uno usa tecnologías baratas y ampliamente disponibles para la duplicación y el almacenamiento. Espero que se reduzca sustancialmente el grado de errores introducidos, a través de inversiones en sistemas más caros.
Este último punto es más general: la conservación y propagación de datos son actividades económicas . La calidad de la transmisión depende en gran medida de los recursos desplegados. Estas elecciones dependerán a su vez de la importancia percibida de los datos para quien esté duplicando y transmitiendo.
Las consideraciones económicas también se aplican al analista. Siempre hay más factores que puede tener en cuenta al hacer su análisis. ¿En qué condiciones los errores de transcripción de datos serán lo suficientemente importantes e importantes como para que valga la pena tenerlos en cuenta? Mi presentimiento es: tales condiciones no son comunes. Además, si se considera que la posible degradación de los datos es lo suficientemente importante como para tenerla en cuenta en su análisis, entonces probablemente sea lo suficientemente importante como para hacer el esfuerzo de modelar el proceso explícitamente, en lugar de insertar un paso genérico de "corrección".
Finalmente, no hay necesidad de desarrollar un factor de corrección genérico de novo . Ya existe un cuerpo sustancial de teoría y práctica estadística para analizar conjuntos de datos para los cuales el error de medición se considera importante.
En resumen: es un pensamiento interesante. Pero no creo que deba estimular ningún cambio en la práctica analítica.
fuente