¿Cuál es la mejor manera de mostrar una relación entre:
- variable continua y discreta,
- dos variables discretas?
Hasta ahora he usado diagramas de dispersión para observar la relación entre variables continuas. Sin embargo, en el caso de variables discretas, los puntos de datos se acumulan a ciertos intervalos. Por lo tanto, la línea de mejor ajuste podría estar sesgada.
data-visualization
categorical-data
random-variable
principiante
fuente
fuente
Respuestas:
Abajo: La gráfica original puede ser engañosa porque la naturaleza discreta de las variables hace que los puntos se superpongan:
Una forma de evitarlo es introducir algo de transparencia en el símbolo de datos:
Otra forma es desplazar ligeramente la ubicación del símbolo para crear una mancha. Esta técnica se llama "fluctuación:"
Ambas soluciones aún le permitirán ajustar una línea recta para evaluar la linealidad.
Código R para su referencia:
fuente
Usaría boxplots para mostrar la relación entre una variable discreta y una variable continua. Puede hacer que sus diagramas de caja sean verticales u horizontales con el software estadístico estándar, por lo que es fácil de visualizar como IV o DV. Que es posible utilizar un diagrama de dispersión con una variable discreta y continua, simplemente asignar un número a la variable discreta (por ejemplo, 1 y 2), y jitter esos valores (gráfico de la parte superior derecha de la nota aquí ).
Con respecto a su comentario de que la línea de mejor ajuste puede estar sesgada, depende de lo que tenga. Por ejemplo, si tiene una variable discreta con dos niveles como su IV y una variable continua como su DV, puede dibujar una línea a través de los dos medios y esto no será sesgado. (Normalmente pensamos que esta situación es apropiada para una prueba t, pero en realidad es una forma, es decir, un caso simple, de regresión, vea mi respuesta aquí ). Por otro lado, si tiene una discreta variable con dos niveles como su DV, la regresión estándar (OLS) sería inapropiada (se requeriría una regresión logística) y la línea de mejor ajuste estaría sesgada, pero podría ajustar (y trazar) una línea inferior como parte de su inicial Exploración de datos.
Para visualizar la relación entre dos variables discretas, usaría un diagrama de mosaico . También puede usar un diagrama de tamiz , un diagrama de asociación o un diagrama de presión dinámica con alguna programación.
fuente
Al considerar la relación entre una variable de resultado binaria y un predictor continuo, usaría el loess más suave (con la detección de valores atípicos desactivada, por ejemplo, en R)
lowess(x, y, iter=0)
.En la próxima versión del
Hmisc
paquete R , puede crear fácilmente un sololattice
gráfico que coloca tales curvas en una pantalla multipanel para múltiples predictores, por ejemplofuente
Si no está satisfecho con los gráficos de dispersión simples, es posible que desee agregar las frecuencias de los puntos de datos en cada valor de la variable discreta. Entonces, cómo hacerlo depende del programa estadístico que esté utilizando. Aquí hay un ejemplo para Stata. También puede aplicar esto al diagrama de dispersión de dos variables categóricas. De lo contrario, un diagrama de caja o gráficos de barras superpuestos pueden estar bien, pero esto realmente depende de cómo desee presentar estas variables.
fuente
Encontré un documento aplicable sobre la asociación entre dos variables binarias en http://www.boekboek.com/xb130929113026 ; aquí, en ese artículo, se muestra y demuestra que la fuerza de asociación entre dos variables binarias se puede expresar como una fracción de Asociación perfecta. Por lo tanto, es posible y preferible establecer: la asociación entre la variable A y la variable B es, por ejemplo, 50% en lugar de la declaración contemporánea: OR = 9 (no es fácil de interpretar) o el riesgo real = 2 (contemporáneamente se considera el riesgo relativo también para ser una medida de asociación, aunque en realidad es una función de asociación, prevalencia o incidencia y positividad).
fuente