Tengo un diagrama de dispersión que tiene un tamaño de muestra que es igual al número de personas en el eje xy el salario medio en el eje y, estoy tratando de averiguar si el tamaño de la muestra tiene algún efecto sobre el salario medio.
Esta es la trama:
¿Cómo interpreto esta trama?
Respuestas:
"Averiguar" indica que está explorando los datos. Las pruebas formales serían superfluas y sospechosas. En su lugar, aplique técnicas estándar de análisis de datos exploratorios (EDA) para revelar lo que puede haber en los datos.
Estas técnicas estándar incluyen la reexpresión , el análisis residual , las técnicas robustas (las "tres R" de EDA) y el suavizado de los datos como lo describe John Tukey en su libro clásico EDA (1977). ¿Cómo llevar a cabo algunos de estos se describen en mi publicación en Box-Cox como transformación para variables independientes? y En la regresión lineal, ¿cuándo es apropiado usar el registro de una variable independiente en lugar de los valores reales? , Entre otras cosas .
El resultado es que se puede ver mucho cambiando a los ejes log-log (reexpresando efectivamente ambas variables), suavizando los datos de manera no demasiado agresiva y examinando los residuos del suavizado para verificar lo que podría haberse perdido, como ilustraré.
Aquí están los datos que se muestran con un suavizado que, después de examinar varios suavizados con diversos grados de fidelidad a los datos, parece un buen compromiso entre demasiado y muy poco suavizado. Utiliza Loess, un método robusto bien conocido (no está muy influenciado por los puntos periféricos verticales).
La cuadrícula vertical está en pasos de 10,000. El suave hace sugerir alguna variación de
Grad_median
con tamaño de la muestra: se parece caer como tamaños de muestra se acercan a 1000. (Los extremos de la lisa, que no son dignos de confianza - especialmente para muestras pequeñas, donde se espera el error de muestreo a ser relativamente grande - por lo que don no lea demasiado en ellos.) Esta impresión de una caída real es apoyada por las bandas de confianza (muy ásperas) dibujadas por el software alrededor de la suavidad: sus "meneos" son mayores que los anchos de las bandas.Estamos interesados en (a) si hay patrones adicionales de variación a medida que cambia el tamaño de la muestra y (b) si las distribuciones condicionales de la respuesta (las distribuciones verticales de las posiciones de los puntos) son plausiblemente similares en todos los valores del tamaño de la muestra, o si algún aspecto de ellos (como su extensión o simetría) podría cambiar.
En consecuencia, este simple resumen:
captura adecuadamente las relaciones que aparecen en los datos y parece mantenerse uniformemente en todas las categorías principales. Si eso es significativo, es decir, si se mantendría firme frente a datos adicionales, solo puede evaluarse mediante la recopilación de esos datos adicionales.
Para aquellos que deseen verificar este trabajo o llevarlo más lejos, aquí está el
R
código.fuente
Glen_b sugiere que tome el logaritmo de sample_size y mediana de salario para ver si tiene sentido reescalar los datos.
No sé si estaría de acuerdo con su creencia de que el salario promedio disminuye una vez que el tamaño de la muestra supera los 1,000. Me inclinaría más a decir que no hay ninguna relación. ¿Tu teoría predice que debería haber una relación?
Otra forma de evaluar una posible relación es ajustar una línea de regresión a los datos. Alternativamente, también podría usar una curva lowess. Trace ambas líneas a sus datos y vea si se puede descifrar algo (sin embargo, dudo que haya algo demasiado sustantivo).
fuente
También estoy de acuerdo en que no hay relación. Reproduje su diagrama de dispersión original (izquierda) e hice el diagrama de dispersión log-log sugerido por glen_b (derecha).
Parece que no hay relación con ninguno de los dos. La correlación entre los datos transformados logarítmicamente es débil (Pearson R = -.13) e insignificante (p = .09). Dependiendo de cuánta información adicional tenga, quizás haya una razón para ver una correlación negativa débil, pero eso parece una exageración. Supongo que cualquier patrón aparente que estés viendo es el mismo efecto visto aquí .
fuente
Intentar una regresión lineal te enseñará algo sobre esta relación, como se sugiere en la primera respuesta. Dado que parece que está utilizando python plus matplotlib para este diagrama, está a una línea de código de la solución.
Podría usar plotter de origen marino, que también mostrará la línea de regresión lineal, el coeficiente de correlación de Pearson y su valor p:
como puedes ver no hay correlación. Mirando este último gráfico, parece que la transformación logarítmica de la variable x sería útil. Vamos a intentarlo:
Puede ver claramente que, con la transformación logarítmica o no, la correlación es pequeña, y tanto el valor p como los intervalos de confianza dicen que no es estadísticamente significativo.
fuente
Este gráfico funciona como una demostración del teorema del límite central, donde la variabilidad entre las muestras disminuye a medida que aumenta el tamaño de la muestra. También es la forma que esperarías con una variable fuertemente sesgada como el salario.
fuente