¿Cuál es la mejor manera de visualizar los efectos de las categorías y su prevalencia en la regresión logística?

11

Necesito presentar información sobre los principales predictores de los votos de un candidato utilizando una encuesta de opinión pública. He realizado una regresión logística utilizando todas las variables que me interesan, pero no puedo encontrar una buena manera de presentar esta información.

A mi cliente no le importa solo el tamaño del efecto, sino la interacción entre el tamaño del efecto y el tamaño de la población con dicho atributo.

¿Cómo puedo lidiar con eso en un gráfico? ¿Alguna sugerencia?

Aquí hay un ejemplo:

El de la variable SEX (Hombre = 1) cuando la variable dependiente es Voto / No en un candidato es 2.3, que es un gran número después de haber sido exponencial y tratado como odds ratio o probabilidad. Sin embargo, la sociedad en la que se realizó esta encuesta solo tenía un 30% de hombres. Por lo tanto, aunque el hombre apoyó bastante a este candidato, sus números son insignificantes para un candidato que intenta ganar una elección mayoritaria. $\beta$

logistic data-visualization survey usuario1172558
fuente

FWIW, el uso del término "interacción" es incorrecto (ver, por ejemplo, aquí o aquí ). Diría algo así como '... pero sobre la identificación de situaciones en las que el tamaño del efecto es grande y el tamaño de la población con dicho atributo también es grande'.

gung - Restablecer Monica

10

Estoy de acuerdo con @PeterFlom en que el ejemplo es extraño, pero dejando esto de lado, noto que la variable explicativa es categórica. Si eso es siempre cierto, esto lo simplifica enormemente. Me gustaría utilizar parcelas de mosaico de presentar estos efectos. Un diagrama de mosaico muestra proporciones condicionales verticalmente, pero el ancho de cada categoría se escala en relación con su proporción marginal (es decir, incondicional) en la muestra.

Aquí hay un ejemplo con los datos del desastre del Titanic, creado usando R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

ingrese la descripción de la imagen aquí

A la izquierda, vemos que las mujeres tenían muchas más probabilidades de sobrevivir, pero los hombres representaban aproximadamente el 80% de las personas a bordo. Por lo tanto, aumentar el porcentaje de hombres sobrevivientes habría significado muchas más vidas salvadas que incluso un aumento mayor en el porcentaje de mujeres sobrevivientes. Esto es algo análogo a su ejemplo. Hay otro ejemplo a la derecha donde la tripulación y la dirección constituían la mayor proporción de personas, pero tenían la menor probabilidad de sobrevivir. (Por lo que vale, este no es un análisis completo de estos datos, porque la clase y el sexo tampoco eran independientes en el Titanic, pero es suficiente para ilustrar las ideas para esta pregunta).

gung - Restablece a Monica
fuente

5

Tengo un poco de curiosidad sobre qué sociedad tenía solo un 10% de hombres ... pero ...

Una cosa que podría hacer es trazar los odds ratios y etiquetar cada uno con el tamaño de la muestra.

Si desea que ambas variables se representen gráficamente, puede hacer un gráfico de burbujas, con la posición de cada burbuja en el eje y que coincida con el tamaño de la razón de probabilidades y el área de la burbuja proporcional al tamaño de la muestra.

Peter Flom - Restablece a Monica
fuente

77

Quizás este .

Andre Silva

¿Cuál es la mejor manera de visualizar los efectos de las categorías y su prevalencia en la regresión logística?

Respuestas: