¿Cuál es la relación entre y en la siguiente gráfica? En mi opinión, existe una relación lineal negativa, pero debido a que tenemos muchos valores atípicos, la relación es muy débil. Estoy en lo cierto? Quiero aprender cómo podemos explicar diagramas de dispersión.
38
Respuestas:
La pregunta trata varios conceptos: cómo evaluar los datos dados solo en forma de un diagrama de dispersión, cómo resumir un diagrama de dispersión y si (y en qué medida) una relación parece lineal. Vamos a tomarlos en orden.
Evaluar datos gráficos
Usar principios de análisis de datos exploratorios (EDA). Estos (al menos originalmente, cuando se desarrollaron para usarlos con lápiz y papel) enfatizan resúmenes de datos simples, fáciles de calcular y robustos. Uno de los tipos de resúmenes más simples se basa en las posiciones dentro de un conjunto de números, como el valor medio, que describe un valor "típico". Los medios son fáciles de estimar confiablemente a partir de gráficos
Los diagramas de dispersión exhiben pares de números. El primero de cada par (como se representa en el eje horizontal) da un conjunto de números individuales, que podríamos resumir por separado.
En este diagrama de dispersión particular, los valores de y parecen estar dentro de dos grupos casi completamente separados : los valores superiores a en la parte superior y aquellos iguales o inferiores a en la parte inferior. (Esta impresión se confirma dibujando un histograma de los valores de y, que es claramente bimodal, pero eso sería mucho trabajo en esta etapa). Invito a los escépticos a entrecerrar los ojos en el diagrama de dispersión. Cuando lo hago, usando un desenfoque gaussiano corregido con rayos gamma de gran radio (es decir, un resultado de procesamiento de imagen rápido estándar) de los puntos en el diagrama de dispersión veo esto:6060 60 60 60
Los dos grupos, superior e inferior, son bastante evidentes. (El grupo superior es mucho más claro que el inferior porque contiene muchos menos puntos).
En consecuencia, resumamos los grupos de valores y por separado. Lo haré dibujando líneas horizontales en las medianas de los dos grupos. Para enfatizar la impresión de los datos y mostrar que no estamos haciendo ningún tipo de cálculo, (a) eliminé todas las decoraciones como ejes y líneas de cuadrícula y (b) borré los puntos. Se pierde poca información sobre los patrones en los datos al "entrecerrar los ojos" en el gráfico:
Del mismo modo, he intentado marcar las medianas de los valores de x con segmentos de línea vertical. En el grupo superior (líneas rojas) puede verificar, contando los blobs, que estas líneas realmente separan al grupo en dos mitades iguales, tanto horizontal como verticalmente. En el grupo inferior (líneas azules) solo he estimado visualmente las posiciones sin hacer ningún recuento.
Evaluar las relaciones: regresión
Los puntos de intersección son los centros de los dos grupos. Un excelente resumen de la relación entre los valores x e y sería informar estas posiciones centrales. Entonces, uno querría complementar este resumen con una descripción de cuánto se distribuyen los datos en cada grupo, a izquierda y derecha, arriba y abajo, alrededor de sus centros. Por brevedad, no haré eso aquí, pero tenga en cuenta que (aproximadamente) las longitudes de los segmentos de línea que he dibujado reflejan los spreads generales de cada grupo.
Finalmente, dibujé una línea (discontinua) que conecta los dos centros. Esta es una línea de regresión razonable. ¿Es una buena descripción de los datos? Ciertamente no: mira qué tan dispersos están los datos alrededor de esta línea. ¿Es incluso evidencia de linealidad? Eso es poco relevante porque la descripción lineal es muy pobre. Sin embargo, como esa es la pregunta que tenemos ante nosotros, hagámosla.
Evaluación de linealidad
Una relación es lineal en un sentido estadístico cuando ya sea los valores de y varían de una manera aleatoria equilibrada alrededor de una línea o los valores de x son vistos a variar de una manera aleatoria equilibrada alrededor de una línea (o ambos).
El primero no parece ser el caso aquí: debido a que los valores de y parecen caer en dos grupos, su variación nunca se verá equilibrada en el sentido de que se distribuye de manera simétrica por encima o por debajo de la línea. (Eso descarta inmediatamente la posibilidad de volcar los datos en un paquete de regresión lineal y realizar un ajuste de mínimos cuadrados de y contra x: las respuestas no serían relevantes).
¿Qué pasa con la variación en x? Eso es más plausible: en cada altura de la gráfica, la dispersión horizontal de puntos alrededor de la línea punteada es bastante equilibrada. La dispersión en esta dispersión parece ser un poco mayor en las alturas más bajas (valores bajos de y), pero tal vez sea porque hay muchos más puntos allí. (Cuantos más datos aleatorios tenga, más separados serán sus valores extremos).
Además, a medida que escaneamos de arriba a abajo, no hay lugares donde la dispersión horizontal alrededor de la línea de regresión esté fuertemente desequilibrada: eso sería evidencia de no linealidad. (Bueno, tal vez alrededor de y = 50 más o menos puede haber demasiados valores de x grandes. Este efecto sutil podría tomarse como evidencia adicional para dividir los datos en dos grupos alrededor del valor de y = 60).
Conclusiones
Hemos visto eso
Tiene sentido ver x como una función lineal de y más alguna variación aleatoria "agradable".
No no tiene sentido a la vista y como una función lineal de x más variación aleatoria.
Se puede estimar una línea de regresión separando los datos en un grupo de valores y altos y un grupo de valores y bajos, encontrando los centros de ambos grupos usando medianas y conectando esos centros.
La línea resultante tiene una pendiente descendente, lo que indica una relación lineal negativa .
No hay desviaciones fuertes de la linealidad.
Sin embargo, debido a que los márgenes de los valores de x alrededor de la línea siguen siendo grandes (en comparación con la distribución general de los valores de x para empezar), tendríamos que caracterizar esta relación lineal negativa como "muy débil".
Podría ser más útil describir los datos como formando dos nubes de forma ovalada (una para y por encima de 60 y otra para valores más bajos de y). Dentro de cada nube hay poca relación detectable entre x e y. Los centros de las nubes están cerca (0.29, 90) y (0.38, 30). Las nubes tienen spreads comparables, pero la nube superior tiene muchos menos datos que la inferior (quizás un 20% más).
Dos de estas conclusiones confirman las hechas en la propia pregunta de que existe una relación negativa débil. Los otros complementan y apoyan esas conclusiones.
Una conclusión extraída en la pregunta que no parece sostenerse es la afirmación de que hay "valores atípicos". Un examen más cuidadoso (como se describe a continuación) no logrará obtener puntos individuales, o incluso pequeños grupos de puntos, que válidamente podrían considerarse periféricos. Después de un análisis lo suficientemente largo, se podría llamar la atención sobre los dos puntos cerca del centro a la derecha o el punto en la esquina inferior izquierda, pero incluso estos no van a cambiar mucho la evaluación de los datos, ya sea que se consideren o no. periférico.
Direcciones adicionales
Mucho más se podría decir. Los siguientes pasos serían evaluar la propagación de esas nubes. Las relaciones entre x e y dentro de cada una de las dos nubes podrían evaluarse por separado, utilizando las mismas técnicas que se muestran aquí. La ligera asimetría de la nube inferior (parece que aparecen más datos en los valores y más pequeños) podría evaluarse e incluso ajustarse reexpresando los valores y (una raíz cuadrada podría funcionar bien). En esta etapa, tendría sentido buscar datos periféricos, porque en este punto la descripción incluiría información sobre valores de datos típicos, así como sus spreads; los valores atípicos (por definición) estarían demasiado lejos del medio para explicarse en términos de la cantidad de propagación observada.
Nada de este trabajo, que es bastante cuantitativo, requiere mucho más que encontrar medios de grupos de datos y hacer algunos cálculos simples con ellos, y por lo tanto, se puede hacer de manera rápida y precisa incluso cuando los datos están disponibles solo en forma gráfica. Todos los resultados que se informan aquí, incluidos los valores cuantitativos, se pueden encontrar fácilmente en unos segundos utilizando un sistema de visualización (como una copia impresa y un lápiz :-)) que le permite a uno hacer marcas claras en la parte superior del gráfico.
fuente
¡Vamos a divertirnos un poco!
En primer lugar, eliminé los datos de su gráfico.
Luego utilicé una línea continua más suave para producir la línea de regresión negra a continuación con las bandas discontinuas de IC del 95% en gris. El siguiente gráfico muestra un lapso en la mitad de los datos, aunque los períodos más estrechos revelaron más o menos precisamente la misma relación. El ligero cambio en la pendiente alrededor de sugirió una relación que podría ser aproximada usando un modelo lineal y agregando la función de bisagra lineal de la pendiente de en una regresión no lineal de mínimos cuadrados (línea roja):XX= 0.4 X
Los coeficientes estimados fueron:
Me gustaría señalar que, si bien el tubérculo reducible afirma que no hay relaciones lineales fuertes, la desviación de la línea implicada por el término bisagra está en el mismo orden que la pendiente de (es decir, 37.7), por lo que respetuosamente no estaría de acuerdo con que no veamos una relación no lineal fuerte (es decir, sí, no hay relaciones fuertes, pero el término no lineal es casi tan fuerte como el lineal).XY= 50,9 - 37,7 X X
InterpretaciónY Y X R2 Y norte= 170 X> 0.5 Y en ese rango
(He procedido suponiendo que solo está interesado en como la variable dependiente). Los valores de están muy débilmente predichos por (con un = 0.03 ajustado ). La asociación es aproximadamente lineal, con una ligera disminución en la pendiente de aproximadamente 0,46. Los residuos son un tanto sesgada a la derecha, probablemente porque el es un fuerte límite inferior de los valores de . Dado el tamaño de la muestra , me inclino a tolerar violaciones de la normalidad . Más observaciones para valores de ayudarían a determinar si el cambio en la pendiente es real o si es un artefacto de la disminución de la varianza deY X R 2 Y N = 170 X > 0.5 Y
Actualización con el gráfico :En( Y)
(La línea roja es simplemente una regresión lineal de ln (Y) en X.)
En comentarios, Russ Lenth escribió: "Me pregunto si esto se mantiene si suaviza vs. La distribución de está sesgada a la derecha". Esta es una sugerencia bastante buena, ya que la transformación versus también ofrece un ajuste ligeramente mejor que una línea entre y con residuos que están distribuidos de manera más simétrica. Sin embargo, tanto su sugerido como mi bisagra lineal de comparten una preferencia por una relación entre ( no transformada) que no se describe mediante una línea recta.Iniciar sesiónY X Y Iniciar sesiónY X Y X Iniciar sesión( Y) X Y X
fuente
Aquí está mi
2 ¢1.5 ¢. Para mí, la característica más destacada es que los datos se detienen abruptamente y se 'agrupan' en la parte inferior del rango de Y. Veo los dos 'grupos' (potenciales) y la asociación negativa general, pero las características más destacadas son las (potencial) efecto de piso y el hecho de que el grupo superior de baja densidad solo se extiende a través de parte del rango de X.Debido a que los 'grupos' son vagamente bivariados normales, puede ser interesante probar un modelo de mezcla normal paramétrico. Usando los datos de @Alexis, encuentro que tres grupos optimizan el BIC. El 'efecto de piso' de alta densidad se selecciona como un tercer grupo. El código sigue:
Ahora, ¿qué inferiremos de esto? No creo que
Mclust
sea simplemente un reconocimiento de patrón humano que salió mal. (Mientras que mi lectura del diagrama de dispersión bien puede ser). Por otro lado, no hay duda de que esto es post-hoc . Vi lo que pensé que podría ser un patrón interesante y decidí comprobarlo. El algoritmo sí encuentra algo, pero luego solo verifiqué lo que pensé que podría estar allí, así que mi pulgar definitivamente está en la escala. A veces es posible idear una estrategia para mitigar esto (ver la excelente respuesta de @ whuber aquí ), pero no tengo idea de cómo llevar a cabo un proceso de este tipo en casos como este. Como resultado, tomo estos resultados con mucha sal (he hecho este tipo de cosas con la frecuencia suficiente para que a alguien le falte un agitador completo) Me da algo de material para pensar y discutir con mi cliente la próxima vez que nos veamos. ¿Qué son estos datos? ¿Tiene algún sentido que pueda haber un efecto de piso? ¿Tendría sentido que pudiera haber diferentes grupos? ¿Qué tan significativo / sorprendente / interesante / importante sería si fueran reales? ¿Existen datos independientes / podríamos obtenerlos convenientemente para realizar una prueba honesta de estas posibilidades? Etc.fuente
Permítanme describir lo que veo tan pronto como lo veo:
Si estamos interesados en la distribución condicional de (que si a menudo se centra el interés si vemos como IV e como DV), entonces para la distribución condicional de parece bimodal con un grupo superior ( entre aproximadamente 70 y 125, con una media un poco por debajo de 100) y un grupo inferior (entre 0 y aproximadamente 70, con una media de aproximadamente 30). Dentro de cada grupo modal, la relación con es casi plana. (Ver líneas rojas y azules a continuación dibujadas aproximadamente donde supongo que se debe tener un sentido aproximado de la ubicación)y X y x ≤ 0.5 YEl | X X
Luego, al observar dónde esos dos grupos son más o menos densos en , podemos pasar a decir más:X
Para el grupo superior desaparece por completo, lo que hace que la media general de caiga, y por debajo de aproximadamente 0.2, el grupo inferior es mucho menos denso que por encima, lo que hace que el promedio general sea más alto.x > 0.5 X
Entre estos dos efectos, induce una aparente relación negativa (pero no lineal) entre los dos, ya que parece estar disminuyendo contra pero con una región amplia, en su mayoría plana en el centro. (Ver línea discontinua púrpura)mi( YEl | X= x ) X
Sin duda, sería importante saber qué eran y , porque entonces podría ser más claro por qué la distribución condicional para podría ser bimodal en gran parte de su rango (de hecho, incluso podría quedar claro que efectivamente hay dos grupos, cuyos las distribuciones en inducen la aparente relación decreciente en ).Y X Y X YEl | X
Esto es lo que vi basado en una inspección puramente "a simple vista". Con un poco de juego en algo así como un programa básico de manipulación de imágenes (como el que dibujé las líneas) podríamos comenzar a encontrar algunos números más precisos. Si digitalizamos los datos (que es bastante simple con herramientas decentes, aunque a veces es un poco tedioso hacerlo bien), entonces podemos realizar análisis más sofisticados de ese tipo de impresión.
Este tipo de análisis exploratorio puede llevar a algunas preguntas importantes (a veces las que sorprenden a la persona que tiene los datos pero solo ha mostrado una trama), pero debemos tener cuidado con la medida en que nuestros modelos son elegidos por tales inspecciones, si aplicamos modelos elegidos en función de la apariencia de un gráfico y luego estimamos esos modelos con los mismos datos, tendremos a encontrar los mismos problemas que tenemos cuando usamos una selección y estimación de modelos más formales en los mismos datos. [Esto no es negar la importancia del análisis exploratorio en absoluto; es solo que debemos tener cuidado con las consecuencias de hacerlo sin tener en cuenta cómo lo hacemos. ]
Respuesta a los comentarios de Russ:
[Edición posterior: para aclarar: estoy ampliamente de acuerdo con las críticas de Russ tomadas como precaución general, y ciertamente hay alguna posibilidad de que haya visto más de lo que realmente existe. Planeo volver y editarlos en un comentario más extenso sobre patrones espurios que comúnmente identificamos a simple vista y las formas en que podríamos comenzar a evitar lo peor de eso. Creo que también podré agregar alguna justificación sobre por qué creo que probablemente no solo sea falso en este caso específico (por ejemplo, a través de un regresograma o un núcleo de orden 0 sin problemas, aunque, por supuesto, a falta de más datos para probar, solo hay tan lejos que pueda llegar, por ejemplo, si nuestra muestra no es representativa, incluso el remuestreo solo nos lleva tan lejos.]
Estoy completamente de acuerdo en que tenemos una tendencia a ver patrones espurios; Es un punto que hago con frecuencia aquí y en otros lugares.
Una cosa que sugiero, por ejemplo, al mirar gráficas residuales o gráficas QQ es generar muchas gráficas donde se conoce la situación (tanto como deberían ser las cosas y donde las suposiciones no son válidas) para tener una idea clara de cuánto patrón debería ser ignorado
Aquí hay un ejemplo donde se coloca un gráfico QQ entre otros 24 (que satisfacen los supuestos), para que podamos ver cuán inusual es el gráfico. Este tipo de ejercicio es importante porque nos ayuda a evitar engañarnos interpretando cada pequeño meneo, la mayoría de los cuales serán simples ruidos.
A menudo señalo que si puede cambiar una impresión cubriendo algunos puntos, es posible que dependamos de una impresión generada por nada más que ruido.
[Sin embargo, cuando es evidente desde muchos puntos en lugar de pocos, es más difícil mantener que no está allí].
Las presentaciones visuales en la respuesta de whuber apoya mi impresión, la trama parece desenfoque gaussiano para recoger la misma tendencia a la bimodalidad en .Y
Cuando no tenemos más datos para verificar, al menos podemos ver si la impresión tiende a sobrevivir al remuestreo (arranque la distribución bivariada y ver si casi siempre está presente) u otras manipulaciones donde la impresión no debería ser evidente Si es simple ruido.
1) Aquí hay una manera de ver si la aparente bimodalidad es más que asimetría más ruido: ¿aparece en una estimación de densidad del núcleo? ¿Sigue siendo visible si trazamos estimaciones de densidad del núcleo bajo una variedad de transformaciones? Aquí lo transformo hacia una mayor simetría, al 85% del ancho de banda predeterminado (ya que estamos tratando de identificar un modo relativamente pequeño, y el ancho de banda predeterminado no está optimizado para esa tarea):
Los gráficos son , y . Las líneas verticales están en , y . La bimodalidad está disminuida, pero sigue siendo bastante visible. Como está muy claro en el KDE original, parece confirmar que está allí, y el segundo y el tercer diagrama sugieren que es al menos algo robusto para la transformación.Y Y--√ Iniciar sesión( Y) 68 68--√ Iniciar sesión( 68 )
2) Aquí hay otra forma básica de ver si es más que solo "ruido":
Paso 1: realice la agrupación en Y
Paso 2: Divídase en dos grupos en y agrupe los dos grupos por separado, y vea si es bastante similar. Si no pasa nada en las dos mitades, no se debe esperar que se dividan tanto.X
Los puntos con puntos se agruparon de manera diferente al grupo "todo en un conjunto" en la gráfica anterior. Haré algo más más tarde, pero parece que quizás podría haber una "división" horizontal cerca de esa posición.
Voy a probar un regresograma o un estimador Nadaraya-Watson (ambos son estimaciones locales de la función de regresión, ). Todavía no he generado, pero veremos cómo van. Probablemente excluiría los extremos donde hay pocos datos.mi( YEl | x)
3) Editar: Aquí está el regressograma, para contenedores de ancho 0.1 (excluyendo los extremos, como sugerí anteriormente):
Esto es completamente consistente con la impresión original que tuve de la trama; no prueba que mi razonamiento fuera correcto, pero mis conclusiones llegaron al mismo resultado que el regresograma.
Si lo que vi en la trama, y el razonamiento resultante, fue falso, probablemente no debería haber logrado discernir esta manera.mi( YEl | x)
(Lo siguiente que debería intentar sería un estimador de Nadayara-Watson. Entonces, podría ver cómo funciona el remuestreo si tengo tiempo).
4) Edición posterior:
Nadarya-Watson, núcleo gaussiano, ancho de banda 0.15:
Nuevamente, esto es sorprendentemente consistente con mi impresión inicial. Aquí están los estimadores NW basados en diez muestras de arranque:
El patrón general está ahí, aunque un par de muestras no siguen tan claramente la descripción basada en la totalidad de los datos. Vemos que el caso del nivel de la izquierda es menos seguro que el de la derecha: el nivel de ruido (en parte por pocas observaciones, en parte por la amplia difusión) es tal que es menos fácil afirmar que la media es realmente más alta en izquierda que en el centro.
Mi impresión general es que probablemente no estaba simplemente engañándome a mí mismo, porque los diversos aspectos resisten moderadamente bien a una variedad de desafíos (suavizado, transformación, división en subgrupos, remuestreo) que tenderían a oscurecerlos si fueran simplemente ruido. Por otro lado, las indicaciones son que los efectos, si bien son ampliamente consistentes con mi impresión inicial, son relativamente débiles, y puede ser demasiado para reclamar cualquier cambio real en la expectativa que se mueve desde el lado izquierdo hacia el centro.
fuente
Bien amigos, seguí el ejemplo de Alexis y capturé los datos. Aquí hay una gráfica de versus .xIniciar sesióny X
Y las correlaciones:
La prueba de correlación indica una probable dependencia negativa. No estoy convencido de ninguna bimodalidad (pero tampoco estoy convencido de que esté ausente).
[Eliminé un diagrama residual que tenía en una versión anterior porque pasé por alto el punto de que @whuber estaba tratando de predecir ].XEl | Y
fuente
Russ Lenth se preguntó cómo se vería la gráfica si el eje Y fuera logarítmico. Alexis raspó los datos, por lo que es fácil trazar con un eje de registro:
En una escala logarítmica, no hay indicios de bimodalidad o tendencia. Si una escala logarítmica tiene sentido o no depende, por supuesto, de los detalles de lo que representan los datos. Del mismo modo, si tiene sentido pensar que los datos representan un muestreo de dos poblaciones, como sugiere Whuber, depende de los detalles.
Anexo: Basado en los comentarios a continuación, aquí hay una versión revisada:
fuente
Bueno, tienes razón, la relación es débil, pero no cero. Yo diría que es positivo. Sin embargo, no adivine, simplemente ejecute una regresión lineal simple (regresión OLS) y ¡descubra! Allí obtendrá una pendiente de xxx que le indica cuál es la relación. Y sí, tiene valores atípicos que pueden sesgar los resultados. Eso puede ser tratado. Puede usar la distancia de Cook o crear un diagrama de apalancamiento para estimar el efecto de los valores atípicos en la relación.
Buena suerte
fuente
Ya proporcionó cierta intuición a su pregunta al observar la orientación de los puntos de datos X / Y y su dispersión. En resumen, tienes razón.
En términos formales, la orientación puede denominarse signo de correlación y la dispersión como varianza . Estos dos enlaces le darán más información sobre cómo interpretar la relación lineal entre dos variables.
fuente
Este es un trabajo a domicilio. Entonces, la respuesta a su pregunta es simple. Ejecute una regresión lineal de Y en X, obtendrá algo como esto:
Entonces, la estadística t es significativa en la variable X con una confianza del 99%. Por lo tanto, puede declarar que las variables tienen algún tipo de relación.
Es lineal? Agregue una variable X2 = (X-mean (X)) ^ 2, y regrese nuevamente.
El coeficiente en X sigue siendo significativo, pero X2 no lo es. X2 representa la no linealidad. Entonces, declaras que la relación parece ser lineal.
Lo anterior fue para un trabajo a domicilio.
En la vida real, las cosas son más complicadas. Imagina que estos fueron los datos de una clase de estudiantes. Y - press de banca en libras, X - tiempo en minutos de contener la respiración antes del press de banca. Preguntaría por el género de los estudiantes. Solo por diversión, agreguemos otra variable, Z, y digamos que Z = 1 (niñas) para todos Y <60, y Z = 0 (niños) cuando Y> = 60. Ejecute la regresión con tres variables:
¡¿Que pasó?! ¡La "relación" entre X e Y ha desaparecido! Oh, parece que la relación fue espuria debido a la variable de confusión , el género.
¿Cuál es la moraleja de la historia? Necesita saber cuáles son los datos para "explicar" la "relación", o incluso para establecerla en primer lugar. En este caso, en el momento en que me digan que los datos sobre la actividad física de los estudiantes, les preguntaré inmediatamente por su género, y ni siquiera me molestaré en analizar los datos sin obtener la variable de género.
Por otro lado, si se le pide que "describa" el diagrama de dispersión, entonces todo vale. Correlaciones, ajustes lineales, etc. Para su trabajo a domicilio, los dos primeros pasos anteriores deberían ser suficientes: observe el coeficiente de X (relación), luego X ^ 2 (linealidad). Asegúrese de desviar la variable X (restar la media).
fuente