EDITAR: como esta pregunta se ha inflado, un resumen: encontrar diferentes conjuntos de datos significativos e interpretables con las mismas estadísticas mixtas (media, mediana, rango medio y sus dispersiones asociadas y regresión).
El cuarteto Anscombe (ver ¿ Propósito de visualizar datos de alta dimensión? ) Es un famoso ejemplo de cuatro conjuntos de datos - , con la misma media marginal / desviación estándar (en las cuatro las cuatro , por separado) y el mismo ajuste lineal de MCO , regresión y suma residual de cuadrados, y coeficiente de correlación . Las estadísticas del tipo (marginal y conjunta) son, por lo tanto, las mismas, mientras que los conjuntos de datos son bastante diferentes.y x y R 2 ℓ 2
EDITAR (de los comentarios OP) Dejando aparte el pequeño tamaño del conjunto de datos, permítanme proponer algunas interpretaciones. El conjunto 1 puede verse como una relación lineal estándar (afín, para ser correcto) con el ruido distribuido. El conjunto 2 muestra una relación limpia que podría ser la culminación de un ajuste de mayor grado. El conjunto 3 muestra una clara dependencia estadística lineal con un valor atípico. El conjunto 4 es más complicado: el intento de "predecir" partir de x parece estar destinado al fracaso. El diseño de x puede revelar un fenómeno de histéresis con un rango de valores insuficiente, un efecto de cuantificación (la x podría cuantificarse demasiado) o el usuario ha cambiado las variables dependientes e independientes.
Así Resumen de características esconden comportamientos muy diferentes. El conjunto 2 podría tratarse mejor con un ajuste polinómico. Conjunto 3 con métodos resistentes a los valores atípicos ( ℓ 1 o similar), así como el Conjunto 4. Uno podría preguntarse si otras funciones de costos o indicadores de discrepancia podrían resolverse, o al menos mejorar la discriminación del conjunto de datos. EDITAR (de los comentarios de OP): la publicación del blog Curious Regressions establece que:
Por cierto, me dicen que Frank Anscombe nunca reveló cómo se le ocurrieron estos conjuntos de datos. Si cree que es una tarea fácil obtener todas las estadísticas de resumen y los resultados de la regresión de la misma manera, ¡inténtelo!
En los conjuntos de datos construidos para un propósito similar al del cuarteto de Anscombe , se proporcionan varios conjuntos de datos interesantes, por ejemplo, con los mismos histogramas basados en cuantiles. No vi una mezcla de relación significativa y estadísticas mixtas.
Mi pregunta es: ¿existen conjuntos de datos bivariados (o trivariados, para mantener la visualización) similares a Anscombe de modo que, además de tener las mismas estadísticas de tipo :
- sus gráficas son interpretables como una relación entre e y , como si uno estuviera buscando una ley entre mediciones,
- que poseen las mismas (más robusto) propiedades marginales (misma mediana y la mediana de la desviación absoluta),
- tienen los mismos cuadros delimitadores: el mismo min, max (y, por lo tanto, estadísticas de rango medio y medio de tipo ).
Tales conjuntos de datos tendrían los mismos resúmenes de la trama de "recuadro y bigotes" (con mín., Máx., Mediana, mediana de desviación absoluta / MAD, media y estándar) en cada variable, y aún serían bastante diferentes en la interpretación.
Sería aún más interesante si alguna regresión menos absoluta fuera igual para los conjuntos de datos (pero tal vez ya estoy preguntando demasiado). Podrían servir como advertencia cuando se habla de regresión robusta versus no robusta, y ayudar a tener en cuenta la cita de Richard Hamming:
El propósito de la computación es la comprensión, no los números
EDITAR (de los comentarios de OP) Problemas similares se tratan en Generando datos con estadísticas idénticas pero Gráficos diferentes , Sangit Chatterjee y Aykut Firata, The American Statistician, 2007, o Clonando datos: generando conjuntos de datos con exactamente el mismo ajuste de regresión lineal múltiple, J. Aust NUEVA ZELANDA. Stat. J. 2009.
fuente
Respuestas:
Para ser concreto, estoy considerando el problema de crear dos conjuntos de datos, cada uno de los cuales sugiere una relación, pero la relación de cada uno es diferente y, sin embargo, también tiene aproximadamente lo mismo:
Quizás esto es trampa, pero una forma de hacer que este problema sea mucho más fácil es usar un conjunto de datos donde la línea que mejor se ajusta esmediay= 0 min y= - max y
Considere, por ejemplo,
que tiene un gráfico en forma de V hacia arriba como este:
Reemplazary - y
fuente