Distinguir la falta al azar (MAR) de la falta completa al azar (MCAR)

13

He tenido estos dos explicados varias veces. Continúan cocinando mi cerebro. Missing Not at Random tiene sentido ser, y Missing Completely at Random tiene sentido ... es Missing at Random lo que no tanto.

¿Qué da lugar a datos que serían MAR pero no MCAR?

Fomite
fuente
¿Su pregunta es respondida por esta otra pregunta, hay una buena razón para el nombre "Missing at Random"? y los recursos que enumeran?
Andy W
3
@AndyW Para ser franco, no. Una discusión interesante sobre por qué el nombre es defectuoso y un artículo que está al acecho detrás de un muro de suscripción.
Fomite

Respuestas:

18

Falta al azar (MAR) significa que la falta puede explicarse por variables sobre las que tiene información completa. No es una suposición comprobable, pero hay casos en los que es razonable o no.

Por ejemplo, tome encuestas de opinión política. Mucha gente se niega a responder. Si supone que las razones por las que las personas se niegan a responder se basan completamente en la demografía, y si tiene esa demografía en cada persona, entonces los datos son MAR. Se sabe que algunas de las razones por las cuales las personas se niegan a responder pueden basarse en la demografía (por ejemplo, las personas con ingresos bajos y altos tienen menos probabilidades de responder que las de en medio), pero realmente no hay forma de saber si eso Es la explicación completa.

Entonces, la pregunta se convierte en "¿está lo suficientemente lleno?". A menudo, los métodos de trabajo como la imputación múltiple mejor que otros métodos, siempre y cuando los datos no son muy no falta al azar.

Peter Flom - Restablece a Monica
fuente
55
El Journal of Statistical Software (en línea) tenía un número reciente acerca de la imputación múltiple, y he estado mirando los múltiples paquetes de imputación de tres grandes R: Amelia, mi, y mice. Las similitudes y diferencias son fascinantes. ( Amelia'S over imputees bastante interesante.)
Wayne
1
Aquí está el enlace al problema de JSS: jstatsoft.org/v45
gung - Reinstate Monica
11

No estoy seguro de si esto es correcto, pero la forma en que he tratado de entenderlo es como si hubiera una matriz de posibilidades de 2x2 que no es del todo simétrica. Algo como:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Es decir, si hay un patrón para la falta de una variable y los datos que tenemos no pueden explicarlo, tenemos MNAR, pero si los datos que tenemos (es decir, otras variables en nuestro conjunto de datos) pueden explicarlo, tenemos MAR. Si no hay un patrón para la falta, es MCAR.

Puedo estar lejos aquí. Además, esto deja abierta la definición de "Patrón" y "Datos explicados". Creo que "Explicación de datos" significa que otras variables en su conjunto de datos lo explican, pero creo que su procedimiento también puede explicarlo (por ejemplo, un buen ejemplo en otro hilo es si tiene tres variables de medición que miden lo mismo y su el procedimiento es si las dos primeras mediciones no están de acuerdo por demasiado tiempo, toma una tercera medición).

¿Es esto lo suficientemente preciso para la intuición, CV?

Wayne
fuente
-1

También estaba luchando por comprender la diferencia, por lo que tal vez algunos ejemplos podrían ayudar.

MCAR : Falta completamente al azar , esto es genial. Significa que la no respuesta es completamente aleatoria. Entonces su encuesta no está sesgada.

MAR : Falta al azar , peor situación. Imagina que estás pidiendo un coeficiente intelectual y tienes muchas más mujeres participantes que hombres. Por suerte para ti, IQ no está relacionado con el género, por lo que puedes controlar el género (aplicar ponderación) para reducir el sesgo.

MNAR : No falta al azar , mal. Considere tener una encuesta para el nivel de ingresos. Y de nuevo, tienes más mujeres que hombres participantes. En este caso, esto es un problema, porque el nivel de ingresos está relacionado con el género. Por lo tanto, sus resultados serán sesgados. No es fácil deshacerse de él.

Verá, es una relación de "triángulo" entre la variable objetivo (Y, como el ingreso), la variable auxiliar (X, como la edad) y el comportamiento de respuesta (R, el grupo de respuesta). Si X está relacionado solo con R, good-ish (MAR). Si hay una relación entre X y R y X e Y, es malo (MNAR).

HonzaB
fuente