Tengo una muestra de 1,449 puntos de datos que no están correlacionados (r-cuadrado 0,006).
Al analizar los datos, descubrí que al dividir los valores de las variables independientes en grupos positivos y negativos, parece haber una diferencia significativa en el promedio de la variable dependiente para cada grupo.
Al dividir los puntos en 10 bins (deciles) usando los valores de las variables independientes, parece haber una correlación más fuerte entre el número de deciles y los valores de las variables dependientes promedio (r-cuadrado de 0.27).
No sé mucho sobre estadísticas, así que aquí hay algunas preguntas:
- ¿Es este un enfoque estadístico válido?
- ¿Hay algún método para encontrar la mejor cantidad de contenedores?
- ¿Cuál es el término apropiado para este enfoque para que pueda buscarlo en Google?
- ¿Cuáles son algunos recursos introductorios para aprender sobre este enfoque?
- ¿Cuáles son algunos otros enfoques que puedo usar para encontrar relaciones en estos datos?
Aquí están los datos del decil para referencia: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90
EDITAR: Aquí hay una imagen de los datos:
Industry Momentum es la variable independiente, la calidad del punto de entrada depende
fuente
Respuestas:
0. La correlación (0.0775) es pequeña pero (estadísticamente) significativamente diferente de 0. Es decir, parece que realmente hay correlación, es muy pequeña / débil (equivalente, hay mucho ruido alrededor de la relación).
1. Lo que hace el promedio dentro de los contenedores es reducir la variación en los datos (el efecto para el error estándar de una media), lo que significa que se infla artificialmente la correlación débil. También vea este (algo) problema relacionado .σ/n−−√
2. Claro, menos bins significa que se promedian más datos, lo que reduce el ruido, pero cuanto más anchos son, más "difuso" se vuelve el promedio en cada bin porque la media no es muy constante: hay una compensación. Si bien uno podría derivar una fórmula para optimizar la correlación bajo un supuesto de linealidad y la distribución de las 's, no tomaría en cuenta el efecto algo explotable del ruido en los datos. La manera fácil es probar una variedad completa de límites de contenedores diferentes hasta obtener lo que desea. No olvide intentar variar los anchos y orígenes del contenedor. Esa estrategia ocasionalmente puede resultar sorprendentemente útil con las densidades , y ese tipo de ventaja ocasional se puede transferir a las relaciones funcionales, tal vez permitiéndole obtenerx exactamente el resultado que esperabas .
3. Sí Posiblemente comience con esta búsqueda , luego quizás pruebe sinónimos.
4. Este es un buen lugar para comenzar; Es un libro muy popular dirigido a los no estadísticos.
5. (más en serio :) Sugeriría el suavizado (por ejemplo, mediante la regresión polinómica local / suavizado del núcleo, por ejemplo) como una forma de investigar las relaciones. Depende exactamente de lo que desee, pero este puede ser un enfoque válido cuando no conoce la forma de una relación, siempre que evite el problema del dragado de datos.
Hay una cita popular, cuyo creador parece ser Ronald Coase :
fuente
Quizás te beneficiarías de una herramienta exploratoria. La división de los datos en deciles de la coordenada x parece haberse realizado con ese espíritu. Con las modificaciones que se describen a continuación, es un enfoque perfecto.
Se han inventado muchos métodos exploratorios bivariados. Una simple propuesta por John Tukey ( EDA , Addison-Wesley 1977) es su "trama esquemática errante". Corta la coordenada x en contenedores, erige un diagrama de caja vertical de los datos y correspondientes en la mediana de cada contenedor, y conecta las partes clave de los gráficos de caja (medianas, bisagras, etc.) en curvas (opcionalmente suavizándolas). Estas "huellas errantes" proporcionan una imagen de la distribución bivariada de los datos y permiten una evaluación visual inmediata de la correlación, linealidad de la relación, valores atípicos y distribuciones marginales, así como una estimación robusta y una evaluación de bondad de ajuste de cualquier función de regresión no lineal .
A esta idea, Tukey agregó el pensamiento, consistente con la idea del diagrama de caja, de que una buena manera de probar la distribución de datos es comenzar en el medio y trabajar hacia afuera, reduciendo a la mitad la cantidad de datos a medida que avanza. Es decir, los contenedores para usar no necesitan cortarse en cuantiles igualmente espaciados, sino que deben reflejar los cuantiles en los puntos y para . 1 - 2 - k k = 1 , 2 , 3 , …2−k 1−2−k k=1,2,3,…
Para mostrar las diferentes poblaciones de contenedores, podemos hacer que el ancho de cada diagrama de caja sea proporcional a la cantidad de datos que representa.
El diagrama esquemático errante resultante se vería así. Los datos, desarrollados a partir del resumen de datos, se muestran como puntos grises en el fondo. Sobre esto se ha dibujado el diagrama esquemático errante, con los cinco trazos en color y los diagramas de caja (incluidos los valores atípicos que se muestran) en blanco y negro.
La naturaleza de la correlación cercana a cero se aclara de inmediato: los datos se tuercen. Cerca de su centro, que van desde hasta , tienen una fuerte correlación positiva. En valores extremos, estos datos exhiben relaciones curvilíneas que tienden a ser en general negativas. El coeficiente de correlación neto (que resulta ser para estos datos) es cercano a cero. Sin embargo, insistir en interpretar eso como "casi sin correlación" o "correlación significativa pero baja" sería el mismo error burlado en el viejo chiste sobre la estadística que estaba contenta con su cabeza en el horno y sus pies en la nevera porque, en promedio, La temperatura era cómoda. A veces un solo número no sirve para describir la situación.x = 4 - 0.074x=−4 x=4 −0.074
Las herramientas exploratorias alternativas con propósitos similares incluyen suavidades robustas de cuantiles en ventana de los datos y ajustes de regresiones cuantiles usando un rango de cuantiles. Con la disponibilidad inmediata del software para realizar estos cálculos, tal vez se han vuelto más fáciles de ejecutar que un trazado esquemático errante, pero no disfrutan de la misma simplicidad de construcción, facilidad de interpretación y amplia aplicabilidad.
El siguiente
R
código produjo la figura y se puede aplicar a los datos originales con poco o ningún cambio. (Ignore las advertencias producidas porbplt
(llamado porbxp
): se queja cuando no tiene valores atípicos para dibujar).fuente
c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)
, ¿se está generando y depende de los datos (x
)? Mencionas el2^*(-k)
pero esto no está relacionado.k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
No creo que binning sea un enfoque científico del problema. Es información perdida y arbitraria. Los métodos de rango (ordinal; semiparamétrico) son mucho mejores y no pierden información. Incluso si uno se decidiera por la agrupación de deciles, el método sigue siendo arbitrario y no reproducible por otros, simplemente debido a la gran cantidad de definiciones que se utilizan para cuantiles en el caso de vínculos en los datos. Y como se aludió en el agradable comentario de tortura de datos anterior, Howard Wainer tiene un buen documento que muestra cómo encontrar contenedores que pueden producir una asociación positiva, y encontrar contenedores que pueden producir una asociación negativa, desde el mismo conjunto de datos:
fuente
La división de los datos en deciles basados en la X observada ("Calidad del punto de entrada") parece ser una generalización de un método antiguo propuesto primero por Wald y luego por otros para situaciones en las que tanto X como Y están sujetas a error. (Wald dividió los datos en dos grupos. Nair y Shrivastava y Bartlett los dividieron en tres). Se describe en la sección 5C de Comprensión del análisis de datos robusto y exploratorio , editado por Hoaglin, Mosteller y Tukey (Wiley, 1983). Sin embargo, desde entonces se ha trabajado mucho en tales "Error de medición" o "Error en modelos de variables". Los libros de texto que he visto son Error de medición: modelos, métodos y aplicaciones de John Buonaccorsi (CRC Press,
Su situación puede ser algo diferente porque su diagrama de dispersión me lleva a sospechar que ambas observaciones son variables aleatorias y no sé si cada una contiene un error de medición. ¿Qué representan las variables?
fuente
Encontré el paquete localgauss muy útil para esto. https://cran.r-project.org/web/packages/localgauss/index.html
El paquete contiene
Ejemplo:
Resultado:
fuente