Supongamos que se le han dado algunos datos de un diseño de bloques al azar con 4 repeticiones y 23 tratamientos. Después de una inspección inicial de los datos, observa que para 8 tratamientos todas las repeticiones son idénticas, lo que obviamente es incorrecto. Después de informar el problema, se le informa que se debió a una confusión de la persona responsable de los datos, que luego le enviará la "versión correcta" de los datos. La versión corregida de los datos sería algo como esto:
Valor del representante de tratamiento A 1 5727.000 A 2 5400.000 A 3 5800.000 A 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098
Lo primero que llamaría mi atención en tales datos sería el hecho de que solo los ocho tratamientos para los cuales se informó el problema no tenían ninguna fracción decimal (todos los tratamientos restantes estaban bien). Por lo tanto, decidiría mirarlos más de cerca y restar cada observación de su media muestral dentro de los tratamientos, encontrando algo así como
Valor del representante de tratamiento Delta A 1 5727.000 +127 A 2 5400.000 -200 A 3 5800.000 +200 A 4 5473.000 -127 B 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 B 4 4496.000 -235 ... Z 1 4329.345 ... Z 2 4597.275 ... Z 3 4833.246 ... Z 4 4199.098 ...
Después de ver que las diferencias son simétricas en torno a la media, llamaría inmediatamente a la persona responsable del proyecto e informaría el problema. Por supuesto, también dejaría de trabajar en ese proyecto.
Aunque la evidencia es bastante convincente, sería bueno adjuntar una probabilidad al informe, solo para dar una idea de lo mal que se ven esos datos. Entonces, habría pensado en algo como lo siguiente y me gustaría saber si habría algún defecto en mi razonamiento:
Digamos que si los datos fueran legítimos, sería razonable asumir la normalidad para ese tipo de datos, en base a la experiencia del análisis previo de ese tipo de datos.
Entonces, definamos 4 iid variables aleatorias normales para cada una de las cuatro repeticiones dentro de cada tratamiento:
La desigualdad es simplemente porque no quiero eliminar la intersección.
Si definimos la variable aleatoria Y de la siguiente manera:
Se desprende de eso:
Digamos que a partir de los residuos del modelo con esos datos, calculé el como 350. A partir de eso, usaría el CDF de y para calcular la probabilidad de que Y caiga entre -0.5 y 0.5, que sería P (A) = 0.0005699175
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
Como tal, la probabilidad de S sería:
Debido a que no habría un efecto de bloque claro y los datos provendrían de un experimento aleatorio, sería razonable asumir independencia estadística. Supongamos que de 8 tratamientos sospechosos, 3 tenían esta simetría. Luego, suponiendo independencia, podríamos calcular la probabilidad de tal evento (llamémoslo D) a partir de una distribución binomial:
D: 3 de 8 tratamientos tienen simetría de observaciones alrededor de la media muestral.
No soy estadístico, por lo que me gustaría saber si hay algún defecto en ese razonamiento y si también reportaría los datos como fraudulentos.
Respuestas:
El tema ético es primordial aquí. Estoy de acuerdo con esta información con respecto a los datos como altamente sospechosos e informarlos como tales; Nunca llamaría "fraudulencia" porque eso es para que otros lo determinen después de la investigación y en algunos países podría exponerlo a acciones legales o su amenaza. En cuanto a adjuntar una estimación de probabilidad, me alejaría de eso. El caso es claro (er) sin él y casi todas las suposiciones o aproximaciones están abiertas a desafíos.
fuente