¿Qué métodos generales existen para detectar fraudes, anomalías, falsificaciones, etc. en trabajos científicos producidos por un tercero? (El reciente asunto de Marc Hauser me motivó a preguntar esto ). Por lo general, por fraude electoral y contable, se cita alguna variante de la Ley de Benford . No estoy seguro de cómo podría aplicarse esto, por ejemplo, al caso Marc Hauser, porque la Ley de Benford requiere que los números sean aproximadamente uniformes.
Como ejemplo concreto, suponga que un artículo cita los valores p para una gran cantidad de pruebas estadísticas. ¿Se podría transformar esto para registrar la uniformidad y luego aplicar la Ley de Benford? Parece que habría todo tipo de problemas con este enfoque ( por ejemplo, algunas de las hipótesis nulas podrían ser legítimamente falsas, el código estadístico podría dar valores p que son aproximadamente correctos, las pruebas solo podrían dar valores p que sean uniformes bajo nulo asintóticamente, etc.)
fuente
Respuestas:
Gran pregunta!
En el contexto científico hay varios tipos de informes problemáticos y comportamientos problemáticos:
Los ejemplos comunes de comportamiento inapropiado incluyen:
En general, supongo que la incompetencia está relacionada con las tres formas de comportamiento problemático. Un investigador que no entiende cómo hacer una buena ciencia pero que de otra manera quiere tener éxito tendrá un mayor incentivo para tergiversar sus resultados y es menos probable que respete los principios del análisis ético de datos.
Las distinciones anteriores tienen implicaciones para la detección de comportamientos problemáticos. Por ejemplo, si logra discernir que un conjunto de resultados informados son incorrectos, aún debe determinarse si los resultados surgieron de fraude, error o comportamiento inapropiado. Además, supongo que varias formas de comportamiento inapropiado son mucho más comunes que el fraude.
Con respecto a la detección de comportamientos problemáticos, creo que es en gran medida una habilidad que proviene de la experiencia de trabajar con datos , trabajar con un tema y trabajar con investigadores. Todas estas experiencias fortalecen sus expectativas sobre cómo deberían ser los datos. Por lo tanto, las grandes desviaciones de las expectativas inician el proceso de búsqueda de una explicación. La experiencia con los investigadores le da una idea de los tipos de comportamiento inapropiado que son más o menos comunes. En combinación, esto conduce a la generación de hipótesis. Por ejemplo, si leo un artículo de una revista y estoy sorprendido con los resultados, el estudio tiene poco poder y la naturaleza de la escritura sugiere que el autor está decidido a hacer un punto, genero la hipótesis de que los resultados quizás no deberían ser Confiado
Otros recursos
fuente
En realidad, la Ley de Benford es un método increíblemente poderoso. Esto se debe a que la distribución de frecuencia de Benford del primer dígito es aplicable a todo tipo de conjuntos de datos que ocurren en el mundo real o natural.
Tiene razón en que puede usar la Ley de Benford solo en ciertas circunstancias. Usted dice que los datos deben tener una distribución de registro uniforme. Técnicamente, esto es absolutamente correcto. Pero, podría describir el requisito de una manera mucho más simple e indulgente. Todo lo que necesita es que el rango del conjunto de datos cruce al menos un orden de magnitud. Digamos del 1 al 9 o del 10 al 99 o del 100 al 999. Si cruza dos órdenes de magnitud, está en el negocio. Y, la Ley de Benford debería ser muy útil.
La belleza de la Ley de Benford es que le ayuda a limitar su investigación muy rápidamente en las agujas dentro del montón de datos. Busca las anomalías por las cuales la frecuencia del primer dígito es muy diferente a las frecuencias de Benford. Una vez que notas que hay dos muchos 6, entonces utilizas la Ley de Benford para enfocarte solo en los 6; pero, ahora lo lleva a los dos primeros dígitos (60, 61, 62, 63, etc.). Ahora, tal vez descubras que hay muchos más 63 segundos de lo que sugiere Benford (lo harías calculando la frecuencia de Benford: log (1 + 1/63) que te da un valor cercano al 0%). Entonces, usas Benford para los primeros tres dígitos. Para cuando descubra que hay demasiados 632s (o lo que sea, calculando la frecuencia de Benford: log (1 + 1/632)) de lo esperado, probablemente esté en algo. No todas las anomalías son fraudes. Pero,
Si el conjunto de datos que manipuló Marc Hauser son datos naturales sin restricciones con un rango relacionado que era lo suficientemente amplio, entonces la Ley de Benford sería una herramienta de diagnóstico bastante buena. Estoy seguro de que hay otras buenas herramientas de diagnóstico que también detectan patrones poco probables y, combinándolos con la Ley de Benford, es muy probable que haya investigado el asunto de Marc Hauser de manera efectiva (teniendo en cuenta los requisitos de datos mencionados en la Ley de Benford).
Explico un poco más la Ley de Benford en esta breve presentación que puedes ver aquí: http://www.slideshare.net/gaetanlion/benfords-law-4669483
fuente