¿Marcaría estos datos como fraudulentos?

Supongamos que se le han dado algunos datos de un diseño de bloques al azar con 4 repeticiones y 23 tratamientos. Después de una inspección inicial de los datos, observa que para 8 tratamientos todas las repeticiones son idénticas, lo que obviamente es incorrecto. Después de informar el problema, se le informa que se debió a una confusión de la persona responsable de los datos, que luego le enviará la "versión correcta" de los datos. La versión corregida de los datos sería algo como esto:

Valor del representante de tratamiento 
   A 1 5727.000
   A 2 5400.000
   A 3 5800.000
   A 4 5473.000
   B 1 4618.000
   B 2 4844.000
   B 3 4966.000
   B 4 4496.000 
...
   Z 1 4329.345
   Z 2 4597.275
   Z 3 4833.246
   Z 4 4199.098

Lo primero que llamaría mi atención en tales datos sería el hecho de que solo los ocho tratamientos para los cuales se informó el problema no tenían ninguna fracción decimal (todos los tratamientos restantes estaban bien). Por lo tanto, decidiría mirarlos más de cerca y restar cada observación de su media muestral dentro de los tratamientos, encontrando algo así como

Valor del representante de tratamiento Delta
   A 1 5727.000 +127
   A 2 5400.000 -200
   A 3 5800.000 +200
   A 4 5473.000 -127
   B 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   B 4 4496.000 -235
...
   Z 1 4329.345 ...
   Z 2 4597.275 ...
   Z 3 4833.246 ...
   Z 4 4199.098 ...

Después de ver que las diferencias son simétricas en torno a la media, llamaría inmediatamente a la persona responsable del proyecto e informaría el problema. Por supuesto, también dejaría de trabajar en ese proyecto.

Aunque la evidencia es bastante convincente, sería bueno adjuntar una probabilidad al informe, solo para dar una idea de lo mal que se ven esos datos. Entonces, habría pensado en algo como lo siguiente y me gustaría saber si habría algún defecto en mi razonamiento:

Digamos que si los datos fueran legítimos, sería razonable asumir la normalidad para ese tipo de datos, en base a la experiencia del análisis previo de ese tipo de datos.

Entonces, definamos 4 iid variables aleatorias normales para cada una de las cuatro repeticiones dentro de cada tratamiento:

X_{i} \sim N (μ_{X}, σ_{X}); i = 1, 2, 3, 4

$X_i\sim N(\mu_X,~\sigma_X); ~~~i = 1, 2, 3, 4$ La simetría (con una tolerancia de .5) observada anteriormente podría expresarse como el evento:

A : - 0.5 < X_{1} + X_{2} - X_{3} - X_{4} < 0.5

$A: -0.5 < X_1 + X_2 - X_3 - X_4 < 0.5$ Todavía hay otras formas equivalentes en las que las muestras podrían organizarse para satisfacer la simetría (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3) por lo que la probabilidad de la simetría (S) sería:

P (S) \leq 3 * P (A)

$P(S) \leq 3 * P(A)$

La desigualdad es simplemente porque no quiero eliminar la intersección.

Si definimos la variable aleatoria Y de la siguiente manera:

Y = X_{1} + X_{2} - X_{3} - X_{4}

$Y = X_1 + X_2 - X_3 - X_4$

Se desprende de eso:

Y \sim N (0, 2 * σ_{X})

$Y\sim N(0,~2*\sigma_X)$

Digamos que a partir de los residuos del modelo con esos datos, calculé el $\sigma_X$ como 350. A partir de eso, usaría el CDF de y para calcular la probabilidad de que Y caiga entre -0.5 y 0.5, que sería P (A) = 0.0005699175

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

Como tal, la probabilidad de S sería:

P (S) \leq 0.001709752

$P(S) \leq 0.001709752$

Debido a que no habría un efecto de bloque claro y los datos provendrían de un experimento aleatorio, sería razonable asumir independencia estadística. Supongamos que de 8 tratamientos sospechosos, 3 tenían esta simetría. Luego, suponiendo independencia, podríamos calcular la probabilidad de tal evento (llamémoslo D) a partir de una distribución binomial:

D: 3 de 8 tratamientos tienen simetría de observaciones alrededor de la media muestral.

P (D) \leq (\binom{8}{3}) \cdot p^{3} (1 - p)^{5}

$P(D) \leq {8\choose3} \cdot p^3(1-p)^5$

P (D) \leq 2.7 \cdot 10^{- 7}

$P(D) \leq 2.7 \cdot 10^{-7}$

No soy estadístico, por lo que me gustaría saber si hay algún defecto en ese razonamiento y si también reportaría los datos como fraudulentos.

probability anova dataset fraud Teo
fuente

El tema ético es primordial aquí. Estoy de acuerdo con esta información con respecto a los datos como altamente sospechosos e informarlos como tales; Nunca llamaría "fraudulencia" porque eso es para que otros lo determinen después de la investigación y en algunos países podría exponerlo a acciones legales o su amenaza. En cuanto a adjuntar una estimación de probabilidad, me alejaría de eso. El caso es claro (er) sin él y casi todas las suposiciones o aproximaciones están abiertas a desafíos.

Nick Cox

De acuerdo totalmente con Nick Cox. Tenga en cuenta que CUALQUIER patrón de datos específico es altamente improbable, por lo que la estimación de probabilidad solo va a confundir lo que de otra manera es un caso completamente claro y convincente de datos inutilizables (usaría ese término o algo similar en lugar de fraudulento).

zbicyclist

Cualquier patrón específico es altamente improbable que ocurra al azar, pero no todos tienen la misma probabilidad de ser producidos conscientemente por el hombre. Como no existe un modelo universal de cómo un hombre 'crearía' tales datos, no hay mucho sentido en el cálculo de probabilidad. Sin embargo, podría considerar una representación gráfica de la simetría de los datos. A para fines de demostración B para dar a las personas una idea de cuánto apesta este pez.

Bernhard el

Respuestas muy útiles! De hecho, no pude entender su intención solo con estos datos. Lo único que estaría más allá de toda duda razonable es que estos datos no se pueden usar (me gustó ese término).

Teo

¿Marcaría estos datos como fraudulentos?

Respuestas: