¿Qué tiene de malo (alguna) pseudoaleatorización

23

Me encontré con un estudio en el que los pacientes, que tenían más de 50 años, eran pseudoaleatorios por año de nacimiento. Si el año de nacimiento fuera un número par, la atención habitual, si es un número impar, la intervención.

Es más fácil de implementar, es más difícil de subvertir (es fácil verificar qué tratamiento debería haber recibido un paciente), es fácil de recordar (la asignación se prolongó durante varios años). Pero aún así, no me gusta, siento que una aleatorización adecuada hubiera sido mejor. Pero no puedo explicar por qué.

¿Me equivoco al sentir eso o hay una buena razón para preferir la aleatorización 'real'?

Jeremy Miles
fuente
1
Bienvenido al sitio! Me alegra ver tu publicación aquí.
Andy W
¡Por las respuestas anteriores, me siento mejor al "azar" por DÍA de nacimiento! Día impar para el tratamiento, incluso día para controlar ... Adalberto
AADF
66
@Adalberto Eso pasa por alto el punto principal, que es que no se puede asegurar que ningún procedimiento definido y no aleatorio de asignación de sujetos a grupos tenga las propiedades deseables que tiene un procedimiento aleatorio. ¿Supongamos que pasa años de tiempo en un estudio de este tipo solo después de que un revisor señale una confusión inesperada pero fuerte entre el tratamiento y la paridad del día de nacimiento? Debido a que no podemos anticipar toda esta confusión, eludimos el problema mediante una asignación aleatoria.
whuber

Respuestas:

28

Tienes razón en ser escéptico. En general, uno debe usar la aleatorización 'real', porque generalmente uno no tiene todo el conocimiento sobre los factores relevantes (no observables). Si uno de esos inobservables se correlaciona con la edad par o impar, entonces también se correlaciona con si recibieron o no tratamiento. Si este es el caso, no podemos identificar el efecto del tratamiento: los efectos que observamos podrían deberse al tratamiento o a los factores no observados.

Esto no es un problema con la aleatorización real, donde no esperamos ninguna dependencia entre el tratamiento y los no observables (aunque, por supuesto, para muestras pequeñas puede estar allí).

Para construir una historia de por qué este procedimiento de aleatorización podría ser un problema, suponga que el estudio solo incluyó sujetos que tenían entre 17 y 18 años cuando, por ejemplo, comenzó la guerra de Vietnam. Con 17 no hubo posibilidad de ser reclutado (corríjame si me equivoco en eso), mientras que hubo esa posibilidad con 18. Asumir que la oportunidad no era insignificante y que la experiencia de guerra cambia a las personas, implica que, años después, estos dos grupos son diferentes, a pesar de que solo tienen 1 año de diferencia. Entonces, tal vez el tratamiento (medicamento) parezca que no funciona, pero debido a que solo el grupo con veteranos de Vietnam lo recibió, en realidad esto puede deberse al hecho de que no funciona en personas con TEPT (u otros factores relacionados con ser un veterano) En otras palabras, necesita que ambos grupos (tratamiento y control) sean idénticos, excepto el tratamiento, para identificar el efecto del tratamiento.

Entonces, a menos que pueda descartar que no haya diferencias no observadas entre los grupos (pero ¿cómo lo hace si no se observa?), Es preferible la aleatorización real.

Sin nombre
fuente
Gracias. Buen ejemplo (Olvidé llamarlo pseudoaleatorización, lo he editado en la pregunta).
Jeremy Miles
2
(+1) Mientras leía la pregunta, Vietnam fue el primer ejemplo que se me ocurrió de inmediato. Fue divertido ver que habías tomado la misma táctica. Supongo que es la opción más obvia dadas las edades establecidas de los sujetos, aunque las edades de principios a mediados de los 60 están un poco más cerca.
cardenal
Disculpas por el ping fuera del tema: hay una sugerencia en Meta para hacer que [randomized-experiment] sea un sinónimo de la etiqueta [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Tiene suficiente reputación en esta etiqueta para poder votar por esta sugerencia aquí: stats.stackexchange.com/tags/random-allocation/synomains : ahora necesita 4 votos a favor para que se realice. Si no está de acuerdo con la propuesta, considere comentar sobre Meta para explicar por qué. Eliminaré este comentario pronto. Aclamaciones.
ameba dice Reinstate Monica
18

Es un buen ejercicio mantener puntos de vista contrarios de vez en cuando, así que permítanme comenzar ofreciendo algunas razones a favor de esta forma de pseudoaleatorización. Son, principalmente, que es poco diferente de cualquier otra forma de muestreo sistemático , como obtener muestras de medios ambientales en puntos de una cuadrícula en el campo o muestrear cualquier otro árbol en un huerto, y por lo tanto, este muestreo podría disfrutar de ventajas comparables .

La analogía aquí es perfecta: la edad se "cuadricula" por año, comenzando en un origen cero y la asignación a los grupos se alterna a lo largo de esta cuadrícula (unidimensional). Algunas ventajas de este enfoque son garantizar una dispersión amplia y uniforme de la muestra en el campo o huerto (o edades, en este caso), lo que ayuda a nivelar las influencias relacionadas con la ubicación (o el tiempo). Esto puede ser especialmente útil cuando la teoría sugiere que la ubicación es el factor predominante en la variación de la respuesta. Además, a excepción de muestras realmente pequeñas, analizar los datos como sieran una muestra aleatoria simple que introduce relativamente poco error. Además, es posible cierta aleatorización: en el campo podemos elegir aleatoriamente el origen y la orientación de la cuadrícula. En el presente caso, al menos podemos aleatorizar si los años pares son controles o sujetos de tratamiento.

Otra ventaja del muestreo cuadriculado es detectar la variación localizada. En el campo, esto sería "bolsillos" de respuestas inusuales. Estadísticamente, podemos pensar en ellas como manifestaciones de correlación espacial. En la situación actual, si existe alguna posibilidad de que un rango de edad relativamente estrecho experimente respuestas inusuales, entonces el diseño cuadriculado es una excelente opción, porque un diseño puramente aleatorio puede contener grandes brechas en las edades dentro de uno de los grupos. (Pero un mejor diseño podría ser estratificar: usar la paridad de edad para formar dos estratos analíticos y luego, independientemente dentro de cada estrato, aleatorizar a los pacientes en grupos de control y tratamiento).

Desafortunadamente, esta defensa se desmorona una vez que llegamos a un acuerdo sobre cómo se informan las edades. Los datos del censo de EE. UU. Muestran que (1) las edades autoinformadas tienden a redondearse a múltiplos de cinco (lo he visto en los análisis de datos de grupos de bloques rurales) y (2) esta tendencia se asocia con indicadores de educación inferior o nivel socioeconómico. (También es bien sabido, aunque difícil de probar, que el dígito final en muchas edades autoinformadas es , que las personas en ciertos campos de trabajo, como la actuación, tienden a reducir sus edades informadas y otras exagerarán sus edades). para varios propósitos.) Por lo tanto, al menos en un ligero grado en al menos algunas áreas de los EE. UU. (y aún más en otras partes del mundo), es probable que la paridad de la edad reportada9 9estar asociado con factores importantes para el experimento. Esto hace que la preocupación en la pregunta sea menos que hipotética: es real. En este punto, las respuestas anteriores en este hilo presentan las ideas adicionales que quisiera hacer, por lo que me detendré e invitaré a que las vuelva a leer.

whuber
fuente
(+1) Particularmente, para el contraargumento establecido.
cardenal
13

Estoy de acuerdo en que el ejemplo que das es bastante inocuo pero ...

Si los agentes involucrados (ya sea la persona que realiza la intervención o las personas que reciben la intervención) se dan cuenta del esquema de asignación, pueden aprovecharlo. Tal auto selección debería ser bastante obvia por qué es problemática en la mayoría de los diseños experimentales.

Un ejemplo que conozco en criminología es el siguiente; El experimento estaba destinado a probar el efecto disuasorio de una noche en la cárcel después de una disputa doméstica frente a solo pedirle al autor que se fuera a pasar la noche. Los oficiales recibieron un folleto de hojas, y el color de la hoja actual en la parte superior estaba destinado a identificar qué tratamiento era el asesino. en el incidente particular se suponía que debía recibir.

Lo que terminó sucediendo fue que los oficiales desobedecieron intencionalmente el diseño del estudio y eligieron una hoja basada en las preferencias personales de lo que debería hacerse al asesino. No es exagerado sospechar que una falsificación similar de años es al menos posible en su ejemplo.

Andy W
fuente
Un buen ejemplo, gracias, pero parte del razonamiento fue que la falsificación fue mucho más difícil: no podían argumentar que la hoja era (digamos) amarilla, porque puedo ir y verificar la fecha de nacimiento y ver si se asignaron correctamente.
Jeremy Miles
3
Estoy de acuerdo @JeremyMiles, aunque es solo otra razón para los estudios aleatorios doble ciego. Es simplemente un argumento pretendido contra la pseudoaleatorización: que es más fácil eludir el tratamiento previsto que la aleatorización real. (Mi ejemplo en realidad no es un ejemplo de pseudoaleatorización, pero ilustra el punto sucintamente).
Andy W
Bueno, eso depende de cómo se realizó la aleatorización (verdadera): las personas involucradas en el estudio lo hicieron en parte para evitar problemas con la subversión. Si utiliza la aleatorización real, necesita un buen mantenimiento de registros para asegurarse de que la persona que determina la aleatorización se comunica con la persona que administra el tratamiento, y la persona que realiza la entrega hace lo correcto. Con su ejemplo, si hubieran usado el número de la casa (digamos), los oficiales podrían haber tenido más dificultades para subvertir, aunque no fuera al azar.
Jeremy Miles
1
Disculpas por el ping fuera del tema: hay una sugerencia en Meta para hacer que [randomized-experiment] sea un sinónimo de la etiqueta [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Tiene suficiente reputación en esta etiqueta para poder votar por esta sugerencia aquí: stats.stackexchange.com/tags/random-allocation/synomains : ahora necesita 4 votos a favor para que se realice. Si no está de acuerdo con la propuesta, considere comentar sobre Meta para explicar por qué. Eliminaré este comentario pronto. Aclamaciones.
ameba dice Reinstate Monica
0

La aleatorización completa basada en la distribución aleatoria no es predecible, en su caso se sabe si un caso se asignaría a Intervención o Control antes de la confirmación de elegibilidad.

Ayat
fuente