¿Cuál es la relación entre y

38

¿Cuál es la relación entre $Y$ y $X$ en la siguiente gráfica? En mi opinión, existe una relación lineal negativa, pero debido a que tenemos muchos valores atípicos, la relación es muy débil. Estoy en lo cierto? Quiero aprender cómo podemos explicar diagramas de dispersión.

ingrese la descripción de la imagen aquí

self-study correlation scatterplot PSS
fuente

3

¿Qué es ? ¿Qué es ? ¿Qué proceso produjeron valores atípicos? ¿Qué te hace pensar que no son medidas reales? ¿Cuál es la teoría?

X

$X$

Y

$Y$

abaumann

44

Gracias por tu comentario. Acabo de ver esta trama en un libro. Y es una variable dependiente y X es una variable independiente. No hay teoría trazó un diagrama de dispersión para mostrar la relación de Y dado x. ¿Y hay una pregunta en el libro que pregunta si hay alguna relación o no, lineal o no lineal? ¿Fuerte o débil?

PSS

77

Este es un ejercicio de tasseografía . Esto es muy popular entre los comerciantes diarios, y lo llaman análisis técnico . Básicamente, sin saber algo sobre la naturaleza de los datos, es un ejercicio infructuoso

Aksakal

1

@chl eres genial por donar a una recompensa a whuber =)

Cam.Davidson.Pilon

3

@Aksakal El lenguaje estadístico generalmente entiende la "relación" literalmente: como la descripción de conjuntos de tuplas de números. Por ejemplo, un coeficiente de correlación describe una relación. No hay implicación sobre la génesis, la naturaleza o las asociaciones causales entre las variables subyacentes. Estoy de acuerdo con usted en que "explicar" generalmente se entiende en un sentido tan profundo, pero debido a que las relaciones se enfatizan mucho en la pregunta, creo que es justo no llevar el significado literal de "explicar" demasiado lejos. Sugerir que describir diagramas de dispersión es solo una lectura de hojas de té, va demasiado lejos, en mi humilde opinión.

whuber

51

La pregunta trata varios conceptos: cómo evaluar los datos dados solo en forma de un diagrama de dispersión, cómo resumir un diagrama de dispersión y si (y en qué medida) una relación parece lineal. Vamos a tomarlos en orden.

Evaluar datos gráficos

Usar principios de análisis de datos exploratorios (EDA). Estos (al menos originalmente, cuando se desarrollaron para usarlos con lápiz y papel) enfatizan resúmenes de datos simples, fáciles de calcular y robustos. Uno de los tipos de resúmenes más simples se basa en las posiciones dentro de un conjunto de números, como el valor medio, que describe un valor "típico". Los medios son fáciles de estimar confiablemente a partir de gráficos

Los diagramas de dispersión exhiben pares de números. El primero de cada par (como se representa en el eje horizontal) da un conjunto de números individuales, que podríamos resumir por separado.

En este diagrama de dispersión particular, los valores de y parecen estar dentro de dos grupos casi completamente separados : los valores superiores a en la parte superior y aquellos iguales o inferiores a en la parte inferior. (Esta impresión se confirma dibujando un histograma de los valores de y, que es claramente bimodal, pero eso sería mucho trabajo en esta etapa). Invito a los escépticos a entrecerrar los ojos en el diagrama de dispersión. Cuando lo hago, usando un desenfoque gaussiano corregido con rayos gamma de gran radio (es decir, un resultado de procesamiento de imagen rápido estándar) de los puntos en el diagrama de dispersión veo esto: $60$ $60$

Figura 0

Los dos grupos, superior e inferior, son bastante evidentes. (El grupo superior es mucho más claro que el inferior porque contiene muchos menos puntos).

En consecuencia, resumamos los grupos de valores y por separado. Lo haré dibujando líneas horizontales en las medianas de los dos grupos. Para enfatizar la impresión de los datos y mostrar que no estamos haciendo ningún tipo de cálculo, (a) eliminé todas las decoraciones como ejes y líneas de cuadrícula y (b) borré los puntos. Se pierde poca información sobre los patrones en los datos al "entrecerrar los ojos" en el gráfico:

Figura

Del mismo modo, he intentado marcar las medianas de los valores de x con segmentos de línea vertical. En el grupo superior (líneas rojas) puede verificar, contando los blobs, que estas líneas realmente separan al grupo en dos mitades iguales, tanto horizontal como verticalmente. En el grupo inferior (líneas azules) solo he estimado visualmente las posiciones sin hacer ningún recuento.

Evaluar las relaciones: regresión

Los puntos de intersección son los centros de los dos grupos. Un excelente resumen de la relación entre los valores x e y sería informar estas posiciones centrales. Entonces, uno querría complementar este resumen con una descripción de cuánto se distribuyen los datos en cada grupo, a izquierda y derecha, arriba y abajo, alrededor de sus centros. Por brevedad, no haré eso aquí, pero tenga en cuenta que (aproximadamente) las longitudes de los segmentos de línea que he dibujado reflejan los spreads generales de cada grupo.

Finalmente, dibujé una línea (discontinua) que conecta los dos centros. Esta es una línea de regresión razonable. ¿Es una buena descripción de los datos? Ciertamente no: mira qué tan dispersos están los datos alrededor de esta línea. ¿Es incluso evidencia de linealidad? Eso es poco relevante porque la descripción lineal es muy pobre. Sin embargo, como esa es la pregunta que tenemos ante nosotros, hagámosla.

Evaluación de linealidad

Una relación es lineal en un sentido estadístico cuando ya sea los valores de y varían de una manera aleatoria equilibrada alrededor de una línea o los valores de x son vistos a variar de una manera aleatoria equilibrada alrededor de una línea (o ambos).

El primero no parece ser el caso aquí: debido a que los valores de y parecen caer en dos grupos, su variación nunca se verá equilibrada en el sentido de que se distribuye de manera simétrica por encima o por debajo de la línea. (Eso descarta inmediatamente la posibilidad de volcar los datos en un paquete de regresión lineal y realizar un ajuste de mínimos cuadrados de y contra x: las respuestas no serían relevantes).

¿Qué pasa con la variación en x? Eso es más plausible: en cada altura de la gráfica, la dispersión horizontal de puntos alrededor de la línea punteada es bastante equilibrada. La dispersión en esta dispersión parece ser un poco mayor en las alturas más bajas (valores bajos de y), pero tal vez sea porque hay muchos más puntos allí. (Cuantos más datos aleatorios tenga, más separados serán sus valores extremos).

Además, a medida que escaneamos de arriba a abajo, no hay lugares donde la dispersión horizontal alrededor de la línea de regresión esté fuertemente desequilibrada: eso sería evidencia de no linealidad. (Bueno, tal vez alrededor de y = 50 más o menos puede haber demasiados valores de x grandes. Este efecto sutil podría tomarse como evidencia adicional para dividir los datos en dos grupos alrededor del valor de y = 60).

Conclusiones

Hemos visto eso

Tiene sentido ver x como una función lineal de y más alguna variación aleatoria "agradable".
No no tiene sentido a la vista y como una función lineal de x más variación aleatoria.
Se puede estimar una línea de regresión separando los datos en un grupo de valores y altos y un grupo de valores y bajos, encontrando los centros de ambos grupos usando medianas y conectando esos centros.
La línea resultante tiene una pendiente descendente, lo que indica una relación lineal negativa .
No hay desviaciones fuertes de la linealidad.
Sin embargo, debido a que los márgenes de los valores de x alrededor de la línea siguen siendo grandes (en comparación con la distribución general de los valores de x para empezar), tendríamos que caracterizar esta relación lineal negativa como "muy débil".
Podría ser más útil describir los datos como formando dos nubes de forma ovalada (una para y por encima de 60 y otra para valores más bajos de y). Dentro de cada nube hay poca relación detectable entre x e y. Los centros de las nubes están cerca (0.29, 90) y (0.38, 30). Las nubes tienen spreads comparables, pero la nube superior tiene muchos menos datos que la inferior (quizás un 20% más).

Dos de estas conclusiones confirman las hechas en la propia pregunta de que existe una relación negativa débil. Los otros complementan y apoyan esas conclusiones.

Una conclusión extraída en la pregunta que no parece sostenerse es la afirmación de que hay "valores atípicos". Un examen más cuidadoso (como se describe a continuación) no logrará obtener puntos individuales, o incluso pequeños grupos de puntos, que válidamente podrían considerarse periféricos. Después de un análisis lo suficientemente largo, se podría llamar la atención sobre los dos puntos cerca del centro a la derecha o el punto en la esquina inferior izquierda, pero incluso estos no van a cambiar mucho la evaluación de los datos, ya sea que se consideren o no. periférico.

Direcciones adicionales

Mucho más se podría decir. Los siguientes pasos serían evaluar la propagación de esas nubes. Las relaciones entre x e y dentro de cada una de las dos nubes podrían evaluarse por separado, utilizando las mismas técnicas que se muestran aquí. La ligera asimetría de la nube inferior (parece que aparecen más datos en los valores y más pequeños) podría evaluarse e incluso ajustarse reexpresando los valores y (una raíz cuadrada podría funcionar bien). En esta etapa, tendría sentido buscar datos periféricos, porque en este punto la descripción incluiría información sobre valores de datos típicos, así como sus spreads; los valores atípicos (por definición) estarían demasiado lejos del medio para explicarse en términos de la cantidad de propagación observada.

Nada de este trabajo, que es bastante cuantitativo, requiere mucho más que encontrar medios de grupos de datos y hacer algunos cálculos simples con ellos, y por lo tanto, se puede hacer de manera rápida y precisa incluso cuando los datos están disponibles solo en forma gráfica. Todos los resultados que se informan aquí, incluidos los valores cuantitativos, se pueden encontrar fácilmente en unos segundos utilizando un sistema de visualización (como una copia impresa y un lápiz :-)) que le permite a uno hacer marcas claras en la parte superior del gráfico.

whuber
fuente

44

Guau. Nunca hubiera visto esos dos grupos y la línea resultante. Y lo cuestiono.

rvl

44

@Russ Me alegra saber que alguien cuestiona esta exploración, porque ningún EDA es único o dispositivo. He incluido otra imagen para ayudarlo a ver lo que veo. Me gustaría invitarlo a publicar una respuesta que sea igual o más parsimoniosa y tan útilmente descriptiva.

whuber

12

Como humanos, estamos extraordinariamente inclinados a encontrar patrones, incluso aquellos que no están allí. Creo que es bastante plausible obtener un diagrama de dispersión como el que tenemos aquí con solo dos RV independientes, uno de ellos sesgado. No tengo pruebas de eso, y no tengo un análisis alternativo que ofrecer, aparte de uno que dice que hay poca o ninguna relación. Sí, es posible que la bimodalidad esté presente. Si el proceso pudiera observarse más, podríamos ver qué sucede. Simplemente creo que debemos ser cautelosos y conscientes de nuestra inclinación a reaccionar ante patrones plausiblemente espurios.

rvl

44

@Russ Tienes razón. Se necesita experiencia para evitar leer demasiado en los patrones. Mi experiencia dice que con 150-200 puntos es difícil obtener aleatoriamente la fuerte bimodalidad que medí en las coordenadas y. Dicha experiencia puede complementarse fácil y rápidamente hoy en día mediante simulación: cuando cree que ve un patrón, (1) lo caracteriza cuantitativamente y (2) lo busca en muestras aleatorias que se generan de acuerdo con una hipótesis alternativa más simple. Si el patrón aparece mucho, entonces puede culpar a su corteza visual, pero de lo contrario puede haber encontrado algo.

whuber

1

@Russ Gracias. Ese no era el gráfico residual que describí: los roles de x e y se invierten. Sin embargo, es informativo, no obstante. La heterocedasticidad es lo más llamativo: en realidad parece apoyar la hipótesis de los dos grupos (lo que haría desaparecer la heterocedasticidad). Eso sí, soy agnóstico acerca de esa hipótesis. Todo lo que he escrito aquí está en el espíritu original de una descripción cuidadosa y robusta de los datos. Cualquier curva individual como descripción de estos datos será cruda y quizás insatisfactoria.

whuber

31

¡Vamos a divertirnos un poco!

En primer lugar, eliminé los datos de su gráfico.

Luego utilicé una línea continua más suave para producir la línea de regresión negra a continuación con las bandas discontinuas de IC del 95% en gris. El siguiente gráfico muestra un lapso en la mitad de los datos, aunque los períodos más estrechos revelaron más o menos precisamente la misma relación. El ligero cambio en la pendiente alrededor de sugirió una relación que podría ser aproximada usando un modelo lineal y agregando la función de bisagra lineal de la pendiente de en una regresión no lineal de mínimos cuadrados (línea roja): $X=0.4$ $X$

Y = β_{0 0} + β_{X} X + β_{do} max (X - θ, 0 0) + ε

$Y = \beta_{0} + \beta_{X}X + \beta_{\text{c}}\max\left(X-\theta,0\right) + \varepsilon$

Los coeficientes estimados fueron:

Y = 50,9 - 37,7 X - 26.74436 max (X - 0,46, 0 0)

$Y = 50.9 -37.7X -26.74436\max\left(X-0.46,0\right)$

Me gustaría señalar que, si bien el tubérculo reducible afirma que no hay relaciones lineales fuertes, la desviación de la línea implicada por el término bisagra está en el mismo orden que la pendiente de (es decir, 37.7), por lo que respetuosamente no estaría de acuerdo con que no veamos una relación no lineal fuerte (es decir, sí, no hay relaciones fuertes, pero el término no lineal es casi tan fuerte como el lineal). $Y = 50.9 - 37.7X$ $X$

Tiempo de juego con datos

Interpretación
(He procedido suponiendo que solo está interesado en como la variable dependiente). Los valores de están muy débilmente predichos por (con un = 0.03 ajustado ). La asociación es aproximadamente lineal, con una ligera disminución en la pendiente de aproximadamente 0,46. Los residuos son un tanto sesgada a la derecha, probablemente porque el es un fuerte límite inferior de los valores de . Dado el tamaño de la muestra , me inclino a tolerar violaciones de la normalidad . Más observaciones para valores de ayudarían a determinar si el cambio en la pendiente es real o si es un artefacto de la disminución de la varianza de $Y$ $Y$ $X$ $R^{2}$ $Y$ $N=170$ $X>0.5$ $Y$ en ese rango

Actualización con el gráfico : $\ln(Y)$

(La línea roja es simplemente una regresión lineal de ln (Y) en X.)

Actualizado con gráfico según la sugerencia de Russ Lenth.

En comentarios, Russ Lenth escribió: "Me pregunto si esto se mantiene si suaviza vs. La distribución de está sesgada a la derecha". Esta es una sugerencia bastante buena, ya que la transformación versus también ofrece un ajuste ligeramente mejor que una línea entre y con residuos que están distribuidos de manera más simétrica. Sin embargo, tanto su sugerido como mi bisagra lineal de comparten una preferencia por una relación entre ( no transformada) que no se describe mediante una línea recta. $\log Y$ $X$ $Y$ $\log Y$ $X$ $Y$ $X$ $\log(Y)$ $X$ $Y$ $X$

Alexis
fuente

1

Me pregunto si esto sostiene si suavizar vs . La distribución de está sesgada a la derecha, y creo que una transformación que hace que la distribución sea más simétrica tampoco se parecerá mucho al icónico diagrama de dispersión nulo.

\log Y

$\log Y$

X

$X$

Y

$Y$

rvl

1

@Russ Es clásico que las distribuciones bimodales puedan aparecer sesgadas y sugerir transformaciones de registros. Pero la distribución y aquí es realmente bimodal y un registro probablemente no sea una forma útil de volver a expresarlo. Cuando los dos componentes están separados, el inferior todavía está sesgado positivamente y una raíz cuadrada es aproximadamente la cantidad correcta para transformarlo para obtener una distribución simétrica. La raíz cuadrada no afecta la simetría del grupo superior de manera apreciable, lo que indica que la raíz puede ser una buena opción. Sin embargo, eso no soluciona la bimodalidad, y ahí radica el problema con cualquier suavidad de este tipo.

whuber

1

Alexis, en nuestras respuestas, ambos somos culpables de usar "fuerte" de manera indefinida. El sentido en el que me refería a "débil" se insinuó en algunas de mis frases, lo que significaba que la pendiente es pequeña en comparación con la dispersión en los valores de y. No creo que su análisis llegue a ninguna conclusión diferente a ese respecto. Sentí la necesidad de precaución porque, aceptando hipotéticamente que podría haber mérito en el modelo de mezcla para y, parece que en el grupo superior podría haber una relación positiva débil entre xey y ninguna relación en el grupo inferior.

whuber

3

Alexis, el libro EDA de Tukey está lleno de ellos. Para obtener más técnicas (de mayor sofisticación, con justificación matemática), vea Hoaglin, Mosteller y Tukey, Comprender el análisis de datos robusto y exploratorio .

whuber

2

@rivu manual. Tomó 10 o 15 minutos como máximo. Coloca cada punto inicialmente con el puntero, luego lo ubica con precisión usando las teclas de flecha.

Alexis

21

Aquí está mi ~~2 ¢~~ 1.5 ¢. Para mí, la característica más destacada es que los datos se detienen abruptamente y se 'agrupan' en la parte inferior del rango de Y. Veo los dos 'grupos' (potenciales) y la asociación negativa general, pero las características más destacadas son las (potencial) efecto de piso y el hecho de que el grupo superior de baja densidad solo se extiende a través de parte del rango de X.

Debido a que los 'grupos' son vagamente bivariados normales, puede ser interesante probar un modelo de mezcla normal paramétrico. Usando los datos de @Alexis, encuentro que tres grupos optimizan el BIC. El 'efecto de piso' de alta densidad se selecciona como un tercer grupo. El código sigue:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26

ingrese la descripción de la imagen aquí

Ahora, ¿qué inferiremos de esto? No creo que Mclustsea simplemente un reconocimiento de patrón humano que salió mal. (Mientras que mi lectura del diagrama de dispersión bien puede ser). Por otro lado, no hay duda de que esto es post-hoc . Vi lo que pensé que podría ser un patrón interesante y decidí comprobarlo. El algoritmo sí encuentra algo, pero luego solo verifiqué lo que pensé que podría estar allí, así que mi pulgar definitivamente está en la escala. A veces es posible idear una estrategia para mitigar esto (ver la excelente respuesta de @ whuber aquí ), pero no tengo idea de cómo llevar a cabo un proceso de este tipo en casos como este. Como resultado, tomo estos resultados con mucha sal (he hecho este tipo de cosas con la frecuencia suficiente para que a alguien le falte un agitador completo) Me da algo de material para pensar y discutir con mi cliente la próxima vez que nos veamos. ¿Qué son estos datos? ¿Tiene algún sentido que pueda haber un efecto de piso? ¿Tendría sentido que pudiera haber diferentes grupos? ¿Qué tan significativo / sorprendente / interesante / importante sería si fueran reales? ¿Existen datos independientes / podríamos obtenerlos convenientemente para realizar una prueba honesta de estas posibilidades? Etc.

gung - Restablece a Monica
fuente

1

+1 Para señalar cómo un análisis exploratorio lleva naturalmente a preguntas interesantes . Desearía haber enfatizado ese punto más en mi respuesta. Aunque creo que sería empujar las cosas creer (en este punto) que realmente hay tres grupos distintos, los resultados del clúster todavía presentan una forma válida de ver que hay una relación negativa entre x e y y de resumir esa relación. Me pregunto hasta qué punto la agrupación automática podría ser una herramienta exploratoria generalmente útil, siempre que no tengamos la tentación de leer demasiado los resultados.

whuber

14

Permítanme describir lo que veo tan pronto como lo veo:

Si estamos interesados en la distribución condicional de (que si a menudo se centra el interés si vemos como IV e como DV), entonces para la distribución condicional de parece bimodal con un grupo superior ( entre aproximadamente 70 y 125, con una media un poco por debajo de 100) y un grupo inferior (entre 0 y aproximadamente 70, con una media de aproximadamente 30). Dentro de cada grupo modal, la relación con es casi plana. (Ver líneas rojas y azules a continuación dibujadas aproximadamente donde supongo que se debe tener un sentido aproximado de la ubicación) $y$ $x$ $y$ $x\leq 0.5$ $Y|x$ $x$

Luego, al observar dónde esos dos grupos son más o menos densos en , podemos pasar a decir más: $X$

Para el grupo superior desaparece por completo, lo que hace que la media general de caiga, y por debajo de aproximadamente 0.2, el grupo inferior es mucho menos denso que por encima, lo que hace que el promedio general sea más alto. $x>0.5$ $x$

Entre estos dos efectos, induce una aparente relación negativa (pero no lineal) entre los dos, ya que parece estar disminuyendo contra pero con una región amplia, en su mayoría plana en el centro. (Ver línea discontinua púrpura) $E(Y|X=x)$ $x$

ingrese la descripción de la imagen aquí

Sin duda, sería importante saber qué eran y , porque entonces podría ser más claro por qué la distribución condicional para podría ser bimodal en gran parte de su rango (de hecho, incluso podría quedar claro que efectivamente hay dos grupos, cuyos las distribuciones en inducen la aparente relación decreciente en ). $Y$ $X$ $Y$ $X$ $Y|x$

Esto es lo que vi basado en una inspección puramente "a simple vista". Con un poco de juego en algo así como un programa básico de manipulación de imágenes (como el que dibujé las líneas) podríamos comenzar a encontrar algunos números más precisos. Si digitalizamos los datos (que es bastante simple con herramientas decentes, aunque a veces es un poco tedioso hacerlo bien), entonces podemos realizar análisis más sofisticados de ese tipo de impresión.

Este tipo de análisis exploratorio puede llevar a algunas preguntas importantes (a veces las que sorprenden a la persona que tiene los datos pero solo ha mostrado una trama), pero debemos tener cuidado con la medida en que nuestros modelos son elegidos por tales inspecciones, si aplicamos modelos elegidos en función de la apariencia de un gráfico y luego estimamos esos modelos con los mismos datos, tendremos a encontrar los mismos problemas que tenemos cuando usamos una selección y estimación de modelos más formales en los mismos datos. [Esto no es negar la importancia del análisis exploratorio en absoluto; es solo que debemos tener cuidado con las consecuencias de hacerlo sin tener en cuenta cómo lo hacemos. ]

Respuesta a los comentarios de Russ:

[Edición posterior: para aclarar: estoy ampliamente de acuerdo con las críticas de Russ tomadas como precaución general, y ciertamente hay alguna posibilidad de que haya visto más de lo que realmente existe. Planeo volver y editarlos en un comentario más extenso sobre patrones espurios que comúnmente identificamos a simple vista y las formas en que podríamos comenzar a evitar lo peor de eso. Creo que también podré agregar alguna justificación sobre por qué creo que probablemente no solo sea falso en este caso específico (por ejemplo, a través de un regresograma o un núcleo de orden 0 sin problemas, aunque, por supuesto, a falta de más datos para probar, solo hay tan lejos que pueda llegar, por ejemplo, si nuestra muestra no es representativa, incluso el remuestreo solo nos lleva tan lejos.]

Estoy completamente de acuerdo en que tenemos una tendencia a ver patrones espurios; Es un punto que hago con frecuencia aquí y en otros lugares.

Una cosa que sugiero, por ejemplo, al mirar gráficas residuales o gráficas QQ es generar muchas gráficas donde se conoce la situación (tanto como deberían ser las cosas y donde las suposiciones no son válidas) para tener una idea clara de cuánto patrón debería ser ignorado

Aquí hay un ejemplo donde se coloca un gráfico QQ entre otros 24 (que satisfacen los supuestos), para que podamos ver cuán inusual es el gráfico. Este tipo de ejercicio es importante porque nos ayuda a evitar engañarnos interpretando cada pequeño meneo, la mayoría de los cuales serán simples ruidos.

A menudo señalo que si puede cambiar una impresión cubriendo algunos puntos, es posible que dependamos de una impresión generada por nada más que ruido.

[Sin embargo, cuando es evidente desde muchos puntos en lugar de pocos, es más difícil mantener que no está allí].

Las presentaciones visuales en la respuesta de whuber apoya mi impresión, la trama parece desenfoque gaussiano para recoger la misma tendencia a la bimodalidad en . $Y$

Cuando no tenemos más datos para verificar, al menos podemos ver si la impresión tiende a sobrevivir al remuestreo (arranque la distribución bivariada y ver si casi siempre está presente) u otras manipulaciones donde la impresión no debería ser evidente Si es simple ruido.

1) Aquí hay una manera de ver si la aparente bimodalidad es más que asimetría más ruido: ¿aparece en una estimación de densidad del núcleo? ¿Sigue siendo visible si trazamos estimaciones de densidad del núcleo bajo una variedad de transformaciones? Aquí lo transformo hacia una mayor simetría, al 85% del ancho de banda predeterminado (ya que estamos tratando de identificar un modo relativamente pequeño, y el ancho de banda predeterminado no está optimizado para esa tarea):

ingrese la descripción de la imagen aquí

Los gráficos son , y . Las líneas verticales están en , y . La bimodalidad está disminuida, pero sigue siendo bastante visible. Como está muy claro en el KDE original, parece confirmar que está allí, y el segundo y el tercer diagrama sugieren que es al menos algo robusto para la transformación. $Y$ $\sqrt{Y}$ $\log(Y)$ $68$ $\sqrt{68}$ $\log(68)$

2) Aquí hay otra forma básica de ver si es más que solo "ruido":

Paso 1: realice la agrupación en Y

ingrese la descripción de la imagen aquí

Paso 2: Divídase en dos grupos en y agrupe los dos grupos por separado, y vea si es bastante similar. Si no pasa nada en las dos mitades, no se debe esperar que se dividan tanto. $X$

ingrese la descripción de la imagen aquí

Los puntos con puntos se agruparon de manera diferente al grupo "todo en un conjunto" en la gráfica anterior. Haré algo más más tarde, pero parece que quizás podría haber una "división" horizontal cerca de esa posición.

Voy a probar un regresograma o un estimador Nadaraya-Watson (ambos son estimaciones locales de la función de regresión, ). Todavía no he generado, pero veremos cómo van. Probablemente excluiría los extremos donde hay pocos datos. $E(Y|x)$

3) Editar: Aquí está el regressograma, para contenedores de ancho 0.1 (excluyendo los extremos, como sugerí anteriormente):

ingrese la descripción de la imagen aquí

Esto es completamente consistente con la impresión original que tuve de la trama; no prueba que mi razonamiento fuera correcto, pero mis conclusiones llegaron al mismo resultado que el regresograma.

Si lo que vi en la trama, y el razonamiento resultante, fue falso, probablemente no debería haber logrado discernir esta manera. $E(Y|x)$

(Lo siguiente que debería intentar sería un estimador de Nadayara-Watson. Entonces, podría ver cómo funciona el remuestreo si tengo tiempo).

4) Edición posterior:

Nadarya-Watson, núcleo gaussiano, ancho de banda 0.15:

ingrese la descripción de la imagen aquí

Nuevamente, esto es sorprendentemente consistente con mi impresión inicial. Aquí están los estimadores NW basados en diez muestras de arranque:

ingrese la descripción de la imagen aquí

El patrón general está ahí, aunque un par de muestras no siguen tan claramente la descripción basada en la totalidad de los datos. Vemos que el caso del nivel de la izquierda es menos seguro que el de la derecha: el nivel de ruido (en parte por pocas observaciones, en parte por la amplia difusión) es tal que es menos fácil afirmar que la media es realmente más alta en izquierda que en el centro.

Mi impresión general es que probablemente no estaba simplemente engañándome a mí mismo, porque los diversos aspectos resisten moderadamente bien a una variedad de desafíos (suavizado, transformación, división en subgrupos, remuestreo) que tenderían a oscurecerlos si fueran simplemente ruido. Por otro lado, las indicaciones son que los efectos, si bien son ampliamente consistentes con mi impresión inicial, son relativamente débiles, y puede ser demasiado para reclamar cualquier cambio real en la expectativa que se mueve desde el lado izquierdo hacia el centro.

Glen_b -Reinstate a Monica
fuente

1

Cuestioné una respuesta, pero estoy seguro de que está encontrando cosas que no están allí

rvl

1

Traté de revertir mi voto negativo, pero supongo que no puedo. El hecho de que realmente no esté de acuerdo con su respuesta no significa necesariamente que no contribuya a la discusión. No estoy seguro de cómo usar los votos negativos, y no me refiero a nada personal. It

rvl

44

@Russ no se preocupe por el voto negativo, realmente no importa, aparte del hecho de que indica que hay algo que debo abordar. Es mucho más importante entender por qué no estamos de acuerdo (en la medida en que lo hacemos) que preocuparse por los puntos de Internet falsos. Tienes una objeción que vale la pena discutir, y con gusto pagaría diez veces ese voto negativo para tener incluso esta breve discusión. Te animo a que me desestimes cada vez que no estás de acuerdo, si dices por qué. Esa es mi oportunidad de aprender algo.

Glen_b -Reinstate Monica

1

@RussLenth puede deshacer un voto negativo (o un voto positivo) haciendo clic nuevamente en el voto negativo. Si no está seguro de dónde están sus votos en el texto de arriba, la flecha hacia abajo (o hacia arriba) se lo informará.

Alexis

44

+1 Realmente hice mucho de este análisis, pero no quería extender demasiado mi respuesta con esos resultados. Has hecho un gran trabajo al presentarlo de forma clara, legible y convincente. Una cosa que hice además fue retroceder (en realidad, suavizar) x contra y (a pesar de la caracterización de y como "dependiente"): creo que el resultado fue útil para evaluar la no linealidad en la relación de una manera que sea independiente de si y debe tratarse como uno o dos grupos.

whuber

13

Bien amigos, seguí el ejemplo de Alexis y capturé los datos. Aquí hay una gráfica de versus . $\log y$ $x$ gráfico de log (Y) vs. X

Y las correlaciones:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188

La prueba de correlación indica una probable dependencia negativa. No estoy convencido de ninguna bimodalidad (pero tampoco estoy convencido de que esté ausente).

[Eliminé un diagrama residual que tenía en una versión anterior porque pasé por alto el punto de que @whuber estaba tratando de predecir ]. $X|Y$

rvl
fuente

2

Por cierto ... se me ocurrió que tomar la transformación log (Y) como dependiente sigue siendo equivalente a encontrar una relación no lineal ... el log (Y) es mejor con los residuales que la función de bisagra con la que jugué en mi respuesta ... pero una de las conclusiones es similar: la relación entre y tiene mejores expresiones funcionales que .

Y

$Y$

X

$X$

Y = a + b X

$Y=a+bX$

Alexis

Gracias por esa trama residual, Russ. Esto no es una solicitud, pero me gustaría señalar que lo que encontré de interés, y tal vez de mayor valor para explorar GoF, fue la relación de x como una función de y en lugar de al revés. Al observar los residuos x, surgen algunas preguntas adicionales (quizás útiles) que no se han planteado hasta ahora, como si pudiéramos aprender algo a través de reexpresiones no lineales de x (sí, podemos); si se puede decir mucho independientemente de la hipótesis de dos poblaciones (sí, de nuevo) y sobre la solidez de mi ajuste (es muy robusto).

whuber

Bueno, tal vez quieras hacer el diagrama residual para eso. Me estoy moviendo a otras cosas.

rvl

5

Russ Lenth se preguntó cómo se vería la gráfica si el eje Y fuera logarítmico. Alexis raspó los datos, por lo que es fácil trazar con un eje de registro:

ingrese la descripción de la imagen aquí

En una escala logarítmica, no hay indicios de bimodalidad o tendencia. Si una escala logarítmica tiene sentido o no depende, por supuesto, de los detalles de lo que representan los datos. Del mismo modo, si tiene sentido pensar que los datos representan un muestreo de dos poblaciones, como sugiere Whuber, depende de los detalles.

Anexo: Basado en los comentarios a continuación, aquí hay una versión revisada:

ingrese la descripción de la imagen aquí

Harvey Motulsky
fuente

Publiqué mi gráfico a los pocos minutos de que Russ Lenth publicara el suyo. No había visto el suyo, o no habría publicado el mío.

Harvey Motulsky

Y

$Y$

9

Este gráfico presenta un ejemplo interesante del efecto de una mala elección de visualización: al reducir la relación de aspecto y extender el eje y más del doble de lo necesario, el software ha suprimido automáticamente la impresión visual de cualquier dispersión vertical, haciendo difícil para el espectador ver mucho de cualquier cosa. Esta es la razón por la cual una buena exploración, aunque guiada por la representación gráfica, debe (a) usar métodos adecuados de visualización que revelen , en lugar de suprimir, el comportamiento de los datos, y (b) apoyarlos con análisis adicionales (como se muestra en la publicación de @ Glen_b) .

whuber

Para los rangos de Y en la pregunta, la base de registro 2 sería una opción más simple para tener un rango razonable de valores para el eje Y. También evitaría el rango superior de los valores agradables de 1 y 1,000 que no se ajustan a los datos disponibles.

Andy W

1

Bueno, tienes razón, la relación es débil, pero no cero. Yo diría que es positivo. Sin embargo, no adivine, simplemente ejecute una regresión lineal simple (regresión OLS) y ¡descubra! Allí obtendrá una pendiente de xxx que le indica cuál es la relación. Y sí, tiene valores atípicos que pueden sesgar los resultados. Eso puede ser tratado. Puede usar la distancia de Cook o crear un diagrama de apalancamiento para estimar el efecto de los valores atípicos en la relación.

Buena suerte

Helgi Guðmundsson
fuente

¿Qué te hace pensar que son valores atípicos reales en lugar de que el DGP sea no lineal?

abaumann

Bueno, supongo que ese también podría ser el caso. Pero es difícil de decir, los puntos están muy dispersos.

Helgi Guðmundsson

¿Por qué asumir la linealidad con OLS? Regresión no paramétrica FTW! :)

Alexis

1

@Alexis tiene razón al enfatizar que los supuestos como la linealidad deben justificarse, ya sea por teoría de dominio o por verificación de modelo. Sin embargo, creo que la eliminación total de valores atípicos sin considerar cuidadosamente por qué ocurrieron tales valores es un error muy común en el análisis estadístico.

abaumann

Sí, los valores atípicos no se pueden eliminar sin una buena justificación, como un valor incorrecto. Pero las transformaciones pueden ayudar a ajustar la distribución del valor a un mejor ajuste y reducir los valores atípicos. Y sí, estoy de acuerdo, creo que es bastante común eliminar los valores atípicos sin una causa justificable.

Helgi Guðmundsson

1

Ya proporcionó cierta intuición a su pregunta al observar la orientación de los puntos de datos X / Y y su dispersión. En resumen, tienes razón.

En términos formales, la orientación puede denominarse signo de correlación y la dispersión como varianza . Estos dos enlaces le darán más información sobre cómo interpretar la relación lineal entre dos variables.

Robert Kubrick
fuente

0

Este es un trabajo a domicilio. Entonces, la respuesta a su pregunta es simple. Ejecute una regresión lineal de Y en X, obtendrá algo como esto:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Entonces, la estadística t es significativa en la variable X con una confianza del 99%. Por lo tanto, puede declarar que las variables tienen algún tipo de relación.

Es lineal? Agregue una variable X2 = (X-mean (X)) ^ 2, y regrese nuevamente.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

El coeficiente en X sigue siendo significativo, pero X2 no lo es. X2 representa la no linealidad. Entonces, declaras que la relación parece ser lineal.

Lo anterior fue para un trabajo a domicilio.

En la vida real, las cosas son más complicadas. Imagina que estos fueron los datos de una clase de estudiantes. Y - press de banca en libras, X - tiempo en minutos de contener la respiración antes del press de banca. Preguntaría por el género de los estudiantes. Solo por diversión, agreguemos otra variable, Z, y digamos que Z = 1 (niñas) para todos Y <60, y Z = 0 (niños) cuando Y> = 60. Ejecute la regresión con tres variables:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

¡¿Que pasó?! ¡La "relación" entre X e Y ha desaparecido! Oh, parece que la relación fue espuria debido a la variable de confusión , el género.

¿Cuál es la moraleja de la historia? Necesita saber cuáles son los datos para "explicar" la "relación", o incluso para establecerla en primer lugar. En este caso, en el momento en que me digan que los datos sobre la actividad física de los estudiantes, les preguntaré inmediatamente por su género, y ni siquiera me molestaré en analizar los datos sin obtener la variable de género.

Por otro lado, si se le pide que "describa" el diagrama de dispersión, entonces todo vale. Correlaciones, ajustes lineales, etc. Para su trabajo a domicilio, los dos primeros pasos anteriores deberían ser suficientes: observe el coeficiente de X (relación), luego X ^ 2 (linealidad). Asegúrese de desviar la variable X (restar la media).

Aksakal
fuente

¿Cuál es la relación entre y

Respuestas:

Evaluar datos gráficos

Evaluar las relaciones: regresión

Evaluación de linealidad

Conclusiones

Direcciones adicionales