Conjuntos de datos tipo Anscombe con el mismo cuadro y gráfico de bigotes (media / estándar / mediana / MAD / min / máx.)

21

EDITAR: como esta pregunta se ha inflado, un resumen: encontrar diferentes conjuntos de datos significativos e interpretables con las mismas estadísticas mixtas (media, mediana, rango medio y sus dispersiones asociadas y regresión).

El cuarteto Anscombe (ver ¿ Propósito de visualizar datos de alta dimensión? ) Es un famoso ejemplo de cuatro conjuntos de datos - , con la misma media marginal / desviación estándar (en las cuatro las cuatro , por separado) y el mismo ajuste lineal de MCO , regresión y suma residual de cuadrados, y coeficiente de correlación . Las estadísticas del tipo (marginal y conjunta) son, por lo tanto, las mismas, mientras que los conjuntos de datos son bastante diferentes.y x y R 2 2xyxyR22

Cuarteto de Anscombe

EDITAR (de los comentarios OP) Dejando aparte el pequeño tamaño del conjunto de datos, permítanme proponer algunas interpretaciones. El conjunto 1 puede verse como una relación lineal estándar (afín, para ser correcto) con el ruido distribuido. El conjunto 2 muestra una relación limpia que podría ser la culminación de un ajuste de mayor grado. El conjunto 3 muestra una clara dependencia estadística lineal con un valor atípico. El conjunto 4 es más complicado: el intento de "predecir" partir de x parece estar destinado al fracaso. El diseño de x puede revelar un fenómeno de histéresis con un rango de valores insuficiente, un efecto de cuantificación (la x podría cuantificarse demasiado) o el usuario ha cambiado las variables dependientes e independientes.yxxx

Así Resumen de características esconden comportamientos muy diferentes. El conjunto 2 podría tratarse mejor con un ajuste polinómico. Conjunto 3 con métodos resistentes a los valores atípicos ( 1 o similar), así como el Conjunto 4. Uno podría preguntarse si otras funciones de costos o indicadores de discrepancia podrían resolverse, o al menos mejorar la discriminación del conjunto de datos. EDITAR (de los comentarios de OP): la publicación del blog Curious Regressions establece que:21

Por cierto, me dicen que Frank Anscombe nunca reveló cómo se le ocurrieron estos conjuntos de datos. Si cree que es una tarea fácil obtener todas las estadísticas de resumen y los resultados de la regresión de la misma manera, ¡inténtelo!

En los conjuntos de datos construidos para un propósito similar al del cuarteto de Anscombe , se proporcionan varios conjuntos de datos interesantes, por ejemplo, con los mismos histogramas basados ​​en cuantiles. No vi una mezcla de relación significativa y estadísticas mixtas.

Mi pregunta es: ¿existen conjuntos de datos bivariados (o trivariados, para mantener la visualización) similares a Anscombe de modo que, además de tener las mismas estadísticas de tipo 2 :

  • sus gráficas son interpretables como una relación entre e y , como si uno estuviera buscando una ley entre mediciones,xy
  • que poseen las mismas (más robusto) propiedades marginales (misma mediana y la mediana de la desviación absoluta),1
  • tienen los mismos cuadros delimitadores: el mismo min, max (y, por lo tanto, estadísticas de rango medio y medio de tipo ).

Tales conjuntos de datos tendrían los mismos resúmenes de la trama de "recuadro y bigotes" (con mín., Máx., Mediana, mediana de desviación absoluta / MAD, media y estándar) en cada variable, y aún serían bastante diferentes en la interpretación.

Sería aún más interesante si alguna regresión menos absoluta fuera igual para los conjuntos de datos (pero tal vez ya estoy preguntando demasiado). Podrían servir como advertencia cuando se habla de regresión robusta versus no robusta, y ayudar a tener en cuenta la cita de Richard Hamming:

El propósito de la computación es la comprensión, no los números

EDITAR (de los comentarios de OP) Problemas similares se tratan en Generando datos con estadísticas idénticas pero Gráficos diferentes , Sangit Chatterjee y Aykut Firata, The American Statistician, 2007, o Clonando datos: generando conjuntos de datos con exactamente el mismo ajuste de regresión lineal múltiple, J. Aust NUEVA ZELANDA. Stat. J. 2009.

(x,y)

21

Laurent Duval
fuente
3
Si solo está buscando conjuntos de datos univariados con los mismos diagramas de caja, le di un conjunto en respuesta a una pregunta hace un tiempo, según el desarrollo en un documento. Espera, lo desenterraré. (editar) ... aquí . Es fácil hacer más conjuntos de datos con las mismas propiedades ... Abordo eso en otra respuesta, aquí .
Glen_b -Reinstalar Monica
2
Xy
Xy
3
Chatterjee y Firat ( The American Statistician , 2007) , vinculados en esta respuesta a esta pregunta , proporcionan un algoritmo genético bastante general al que debería poder adaptarse de manera directa a sus propósitos.
S. Kolassa - Restablece a Mónica el
1
Los gráficos son ejemplos de momentos de población que no tienen sentido cuando se ignoran los momentos de distribución. La media, la desviación estándar, la asimetría y otros momentos de la población no se corresponden con los valores esperados, las desviaciones estándar, la asimetría y otros momentos de las distribuciones que mejor describen esas poblaciones. Cuando las gráficas anteriores se consideran distribuciones de valores x y valores y, todas son diferentes y, por lo tanto, tienen diferentes momentos de distribución. Esto es peor que simplemente ignorando la estructura residual, que tal vez era el punto, uno no puede ignorarlo impunemente.
Carl

Respuestas:

1

Para ser concreto, estoy considerando el problema de crear dos conjuntos de datos, cada uno de los cuales sugiere una relación, pero la relación de cada uno es diferente y, sin embargo, también tiene aproximadamente lo mismo:

  • significa x
  • significa y
  • SD x
  • SD y
  • mediana x
  • mediana y
  • mínimo x
  • mínimo y
  • máximo x
  • máximo y
  • mediana desviación absoluta de la mediana de x
  • mediana desviación absoluta de la mediana de y
  • coeficientes de regresión lineal simple de y en x

Quizás esto es trampa, pero una forma de hacer que este problema sea mucho más fácil es usar un conjunto de datos donde la línea que mejor se ajusta es mediay=0 0miny=-maxy

Considere, por ejemplo,

X0 019 929 939 94 49 95 59 96 69 97 79 989 91y-1-120 01211120 0-12-1

que tiene un gráfico en forma de V hacia arriba como este:

grafico

Reemplazar y-y

Kodiólogo
fuente
Buena contribución De hecho, me cayó la línea horizontal es un poco tramposo wrt OLS. La inversión es una buena idea, pero si los conjuntos de datos son diferentes, siguen siendo similares. Pero creo que tienes una buena idea, quizás una forma de "N" y una forma de "W" de la misma manera podría ser el comienzo de un camino
Laurent Duval