¿Cuál es la mejor manera de visualizar la relación entre variables discretas y continuas?

19

¿Cuál es la mejor manera de mostrar una relación entre:

  • variable continua y discreta,
  • dos variables discretas?

Hasta ahora he usado diagramas de dispersión para observar la relación entre variables continuas. Sin embargo, en el caso de variables discretas, los puntos de datos se acumulan a ciertos intervalos. Por lo tanto, la línea de mejor ajuste podría estar sesgada.

principiante
fuente
44
Para el caso discreto-discreto, esta respuesta a una pregunta algo relacionada aquí , sobre el trazado de datos categóricos ordenados puede ayudar (aunque posiblemente sin los cuadros en su caso). Realmente no estoy seguro de cómo crees que surge este 'sesgo'; afectaría la impresión visual de los puntos de datos (lo que lleva al uso esperando que la línea vaya a otro lugar que no sea donde debería) pero no a los datos en sí. ¿Puedes explicar tu razonamiento aquí?
Glen_b -Reinstale a Monica el

Respuestas:

26

Abajo: La gráfica original puede ser engañosa porque la naturaleza discreta de las variables hace que los puntos se superpongan:

ingrese la descripción de la imagen aquí

Una forma de evitarlo es introducir algo de transparencia en el símbolo de datos:

ingrese la descripción de la imagen aquí

Otra forma es desplazar ligeramente la ubicación del símbolo para crear una mancha. Esta técnica se llama "fluctuación:"

ingrese la descripción de la imagen aquí

Ambas soluciones aún le permitirán ajustar una línea recta para evaluar la linealidad.

Código R para su referencia:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
Penguin_Knight
fuente
1
Buena respuesta. ¿Qué pasa con los gráficos de dispersión de burbujas con recuentos de instancias variables? Intenté usar estas técnicas en un conjunto de datos masivo y todo tomó demasiado tiempo para representar los alfa.
josh
14

Usaría boxplots para mostrar la relación entre una variable discreta y una variable continua. Puede hacer que sus diagramas de caja sean verticales u horizontales con el software estadístico estándar, por lo que es fácil de visualizar como IV o DV. Que es posible utilizar un diagrama de dispersión con una variable discreta y continua, simplemente asignar un número a la variable discreta (por ejemplo, 1 y 2), y jitter esos valores (gráfico de la parte superior derecha de la nota aquí ).

Con respecto a su comentario de que la línea de mejor ajuste puede estar sesgada, depende de lo que tenga. Por ejemplo, si tiene una variable discreta con dos niveles como su IV y una variable continua como su DV, puede dibujar una línea a través de los dos medios y esto no será sesgado. (Normalmente pensamos que esta situación es apropiada para una prueba t, pero en realidad es una forma, es decir, un caso simple, de regresión, vea mi respuesta aquí ). Por otro lado, si tiene una discreta variable con dos niveles como su DV, la regresión estándar (OLS) sería inapropiada (se requeriría una regresión logística) y la línea de mejor ajuste estaría sesgada, pero podría ajustar (y trazar) una línea inferior como parte de su inicial Exploración de datos.

Para visualizar la relación entre dos variables discretas, usaría un diagrama de mosaico . También puede usar un diagrama de tamiz , un diagrama de asociación o un diagrama de presión dinámica con alguna programación.

gung - Restablece a Monica
fuente
8

Al considerar la relación entre una variable de resultado binaria y un predictor continuo, usaría el loess más suave (con la detección de valores atípicos desactivada, por ejemplo, en R) lowess(x, y, iter=0).

En la próxima versión del Hmiscpaquete R , puede crear fácilmente un solo latticegráfico que coloca tales curvas en una pantalla multipanel para múltiples predictores, por ejemplo

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)
Frank Harrell
fuente
1

Si no está satisfecho con los gráficos de dispersión simples, es posible que desee agregar las frecuencias de los puntos de datos en cada valor de la variable discreta. Entonces, cómo hacerlo depende del programa estadístico que esté utilizando. Aquí hay un ejemplo para Stata. También puede aplicar esto al diagrama de dispersión de dos variables categóricas. De lo contrario, un diagrama de caja o gráficos de barras superpuestos pueden estar bien, pero esto realmente depende de cómo desee presentar estas variables.

Andy
fuente
1

Encontré un documento aplicable sobre la asociación entre dos variables binarias en http://www.boekboek.com/xb130929113026 ; aquí, en ese artículo, se muestra y demuestra que la fuerza de asociación entre dos variables binarias se puede expresar como una fracción de Asociación perfecta. Por lo tanto, es posible y preferible establecer: la asociación entre la variable A y la variable B es, por ejemplo, 50% en lugar de la declaración contemporánea: OR = 9 (no es fácil de interpretar) o el riesgo real = 2 (contemporáneamente se considera el riesgo relativo también para ser una medida de asociación, aunque en realidad es una función de asociación, prevalencia o incidencia y positividad).

Erik
fuente