¿Cómo interpreto este diagrama de dispersión?

12

Tengo un diagrama de dispersión que tiene un tamaño de muestra que es igual al número de personas en el eje xy el salario medio en el eje y, estoy tratando de averiguar si el tamaño de la muestra tiene algún efecto sobre el salario medio.

Esta es la trama:

ingrese la descripción de la imagen aquí

¿Cómo interpreto esta trama?

Sameed
fuente
3
Si puede, sugiero trabajar con una transformación de ambas variables. Si ninguna de las variables tiene ceros exactos, eche un vistazo a la escala log-log
Glen_b -Reinstate Monica
@Glen_b lo siento, no estoy familiarizado con los términos que has establecido, solo con mirar la gráfica, ¿puedes establecer una relación entre las dos variables? lo que puedo adivinar es que para un tamaño de muestra de hasta 1000 no hay relación, ya que para los mismos valores de tamaño de muestra hay múltiples valores medios. Para valores superiores a 1000, el salario medio parece disminuir. Qué piensas ?
Sameed
No veo evidencia clara de eso, me parece bastante plano; Si hay cambios claros, probablemente esté sucediendo en la parte inferior del tamaño de la muestra. ¿Tienes los datos, o solo la imagen de la trama?
Glen_b -Reinstate Monica
44
Si ve la mediana como la mediana de n variables aleatorias, entonces tiene sentido que la variación de la mediana disminuya a medida que aumenta el tamaño de la muestra. Eso explicaría la gran extensión en el lado izquierdo de la trama.
JAD
2
Su afirmación "para un tamaño de muestra de hasta 1000 no hay relación, ya que para los mismos valores de tamaño de muestra hay valores medios múltiples" es incorrecta.
Peter Flom - Restablece a Monica

Respuestas:

9

"Averiguar" indica que está explorando los datos. Las pruebas formales serían superfluas y sospechosas. En su lugar, aplique técnicas estándar de análisis de datos exploratorios (EDA) para revelar lo que puede haber en los datos.

Estas técnicas estándar incluyen la reexpresión , el análisis residual , las técnicas robustas (las "tres R" de EDA) y el suavizado de los datos como lo describe John Tukey en su libro clásico EDA (1977). ¿Cómo llevar a cabo algunos de estos se describen en mi publicación en Box-Cox como transformación para variables independientes? y En la regresión lineal, ¿cuándo es apropiado usar el registro de una variable independiente en lugar de los valores reales? , Entre otras cosas .

El resultado es que se puede ver mucho cambiando a los ejes log-log (reexpresando efectivamente ambas variables), suavizando los datos de manera no demasiado agresiva y examinando los residuos del suavizado para verificar lo que podría haberse perdido, como ilustraré.

Aquí están los datos que se muestran con un suavizado que, después de examinar varios suavizados con diversos grados de fidelidad a los datos, parece un buen compromiso entre demasiado y muy poco suavizado. Utiliza Loess, un método robusto bien conocido (no está muy influenciado por los puntos periféricos verticales).

Diagrama de dispersión log-log

La cuadrícula vertical está en pasos de 10,000. El suave hace sugerir alguna variación de Grad_mediancon tamaño de la muestra: se parece caer como tamaños de muestra se acercan a 1000. (Los extremos de la lisa, que no son dignos de confianza - especialmente para muestras pequeñas, donde se espera el error de muestreo a ser relativamente grande - por lo que don no lea demasiado en ellos.) Esta impresión de una caída real es apoyada por las bandas de confianza (muy ásperas) dibujadas por el software alrededor de la suavidad: sus "meneos" son mayores que los anchos de las bandas.

0.220%

Estamos interesados ​​en (a) si hay patrones adicionales de variación a medida que cambia el tamaño de la muestra y (b) si las distribuciones condicionales de la respuesta (las distribuciones verticales de las posiciones de los puntos) son plausiblemente similares en todos los valores del tamaño de la muestra, o si algún aspecto de ellos (como su extensión o simetría) podría cambiar.

! [Figura 2 Gráfico de residuos

0.0

En consecuencia, este simple resumen:

el salario promedio es aproximadamente 10,000 menor para tamaños de muestra cercanos a 1000

captura adecuadamente las relaciones que aparecen en los datos y parece mantenerse uniformemente en todas las categorías principales. Si eso es significativo, es decir, si se mantendría firme frente a datos adicionales, solo puede evaluarse mediante la recopilación de esos datos adicionales.


Para aquellos que deseen verificar este trabajo o llevarlo más lejos, aquí está el Rcódigo.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)
whuber
fuente
7

Glen_b sugiere que tome el logaritmo de sample_size y mediana de salario para ver si tiene sentido reescalar los datos.

No sé si estaría de acuerdo con su creencia de que el salario promedio disminuye una vez que el tamaño de la muestra supera los 1,000. Me inclinaría más a decir que no hay ninguna relación. ¿Tu teoría predice que debería haber una relación?

Otra forma de evaluar una posible relación es ajustar una línea de regresión a los datos. Alternativamente, también podría usar una curva lowess. Trace ambas líneas a sus datos y vea si se puede descifrar algo (sin embargo, dudo que haya algo demasiado sustantivo).

BORRAR
fuente
3
El diagrama de dispersión es muy similar a un gráfico en embudo utilizado en los metanálisis. Ver un ejemplo similar . Al trazar las bandas de embudo se mostrará más claramente si hay alguna relación, en este ejemplo puede haber una ligeramente positiva.
Andy W
6

También estoy de acuerdo en que no hay relación. Reproduje su diagrama de dispersión original (izquierda) e hice el diagrama de dispersión log-log sugerido por glen_b (derecha).

ingrese la descripción de la imagen aquí

Parece que no hay relación con ninguno de los dos. La correlación entre los datos transformados logarítmicamente es débil (Pearson R = -.13) e insignificante (p = .09). Dependiendo de cuánta información adicional tenga, quizás haya una razón para ver una correlación negativa débil, pero eso parece una exageración. Supongo que cualquier patrón aparente que estés viendo es el mismo efecto visto aquí .

R=0.0022p=0.98

R Greg Stacey
fuente
Gracias por mirar la correlación entre grad-mediana y grad-sample-size; ¡Estaba profundamente perplejo por la diferencia entre los números!
famargar
0

Intentar una regresión lineal te enseñará algo sobre esta relación, como se sugiere en la primera respuesta. Dado que parece que está utilizando python plus matplotlib para este diagrama, está a una línea de código de la solución.

Podría usar plotter de origen marino, que también mostrará la línea de regresión lineal, el coeficiente de correlación de Pearson y su valor p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

ingrese la descripción de la imagen aquí

como puedes ver no hay correlación. Mirando este último gráfico, parece que la transformación logarítmica de la variable x sería útil. Vamos a intentarlo:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

ingrese la descripción de la imagen aquí

Puede ver claramente que, con la transformación logarítmica o no, la correlación es pequeña, y tanto el valor p como los intervalos de confianza dicen que no es estadísticamente significativo.

famargar
fuente
3
Las indicaciones de distribuciones condicionales fuertemente sesgadas sugieren que este no es un buen enfoque. Cuando también observe que la asimetría de la distribución del tamaño de la muestra hará que los pocos tamaños de muestra más grandes controlen la aparición de una tendencia en la regresión, verá por qué otros recomiendan transformaciones preliminares de los datos.
whuber
1
No estoy adivinando ni especulando: la trama en la pregunta muestra claramente estas características. También vea las parcelas creadas por R Greg Stacey , que, al aplicar las transformaciones de log-log sugeridas, demuestra lo que logran.
whuber
Acabo de encontrar los datos e hice el estudio yo mismo, por favor vea la respuesta actualizada.
famargar
Su estudio ha sucumbido a los dos problemas que noté: la aparición de "sin correlación" deriva en gran parte de las respuestas condicionales sesgadas y la influencia de los altos valores del regresor. En particular, ni la línea ajustada ni sus bandas de error son confiables.
whuber
Por favor vea la trama que acabo de agregar; Espero no perderme nada en esta última iteración.
famargar
-1

Este gráfico funciona como una demostración del teorema del límite central, donde la variabilidad entre las muestras disminuye a medida que aumenta el tamaño de la muestra. También es la forma que esperarías con una variable fuertemente sesgada como el salario.

Barton Poulson
fuente
3
Estas no son muestras independientes de una población común. Eso hace que la relevancia del CLT sea bastante problemática.
whuber