¿Qué se pretende con "Dejar que los datos hablen por sí mismos"?

10

Al leer el siguiente documento , me encontré con la siguiente declaración:

Como se mencionó, a menudo se presenta sin ninguna referencia a modelos probabilísticos, en línea con la idea de Benzecri [1973] de "dejar que los datos hablen por sí mismos".

(La cita es de JP Benzécri. L'analyse des données. Tomo II: L'analyse des correspondances. Dunod, 1973.)

Por cómo estoy leyendo este documento, parece que "dejar que los datos hablen por sí mismos" significa algo en la línea de considerar varias medidas a través de los datos sin tener en cuenta una función de probabilidad o un proceso de generación de datos .

Si bien he escuchado la cita "deje que los datos hablen por sí mismos" antes, no he pensado mucho en lo que implica. ¿Es mi interpretación anterior lo que implica canónicamente esta cita?

Acantilado
fuente
99
Deje que la cita hable por sí misma.
Mark L. Stone
@ MarkL.Stone: al igual que los datos, las citas se entienden mejor con el contexto
Cliff AB

Respuestas:

8

La interpretación depende del contexto, pero hay algunos contextos comunes en los que esto surge. La declaración se usa a menudo en el análisis bayesiano para enfatizar el hecho de que idealmente nos gustaría que la distribución posterior en el análisis sea robusta a supuestos anteriores, de modo que el efecto de los datos "domine" el posterior. En términos más generales, la cita generalmente significa que queremos que nuestro modelo estadístico se ajuste a la estructura de los datos, en lugar de forzar los datos a una interpretación que es una suposición estructural no verificable del modelo.

La cita particular a la que se refiere se complementa con la cita adicional: "El modelo debe seguir los datos, no al revés" (traducido de Benzécri J (1973) L'Analyse des Données. Tomo II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri argumentó que los modelos estadísticos deberían extraer la estructura de los datos, en lugar de imponer la estructura. Consideró que el uso de métodos gráficos exploratorios es muy importante para permitir que el analista "deje que los datos hablen".

Ben - Restablece a Monica
fuente
(+1) Con eso en mente, supongo que la cita en el primer artículo vinculado implica que estos métodos observan la estructura de covarianza empírica, en lugar de una estructura de dependencia basada en el modelo.
Cliff AB
1
Sí, creo que es correcto. Vale la pena señalar que Benzécri afirmó que el análisis de datos era básicamente equivalente a la descomposición propia en PCA. Se le cita diciendo: "en general, hacer un análisis de datos, en buenas matemáticas, es simplemente buscar vectores propios; toda la ciencia (o el arte) de esto es encontrar la matriz correcta para diagonalizar". (ver Husson et al 2016 , p. 2)
Ben - Reinstalar a Monica el
2
Ja, ese es un reclamo muy interesante para él. Ese contexto hace que la cita en el documento tenga mucho más sentido.
Cliff AB
Sí, es bastante extremo!
Ben - Restablece a Monica el
(+1) Si bien, a primera vista, la cita parece difícil de estar en desacuerdo (¿por qué "imponer" algo sería algo bueno, después de todo?), La maldición de la dimensionalidad en las estadísticas no paramétricas, por ejemplo, muestra que, por así decirlo, Es más fácil escuchar los datos hablando por sí mismos cuando los escuchamos a través de un modelo paramétrico.
Christoph Hanck
1

Alrededor de 2005, cuando "Data Mining" era la última amenaza para la profesión estadística, recuerdo haber visto un póster con "Principios de Data Mining", uno de los cuales era "dejar que los datos hablen" (no recuerdo si "por sí mismo" estaba incluido). Si piensa en algoritmos que podrían considerarse "Minería de datos", le vienen a la mente una partición previa y recursiva, dos algoritmos que pueden motivarse sin supuestos estadísticos y resultan en resúmenes bastante básicos del conjunto de datos subyacente.

@Ben entiende más de la historia de la frase que yo, pero pensando en la cita como se cita en el documento:

MCA puede verse como la contraparte de PCA para datos categóricos e implica reducir la dimensionalidad de los datos para proporcionar un subespacio que mejor represente los datos en el sentido de maximizar la variabilidad de los puntos proyectados. Como se mencionó, a menudo se presenta sin ninguna referencia a modelos probabilísticos, en línea con la idea de Benz´ecri [1973] de "dejar que los datos hablen por sí mismos".

me parece que el procedimiento de MCA se parece a una partición a priori o recursiva (o demonios, la media aritmética para el caso) en el sentido de que puede motivarse sin ningún tipo de modelado y es una operación mecánica en un conjunto de datos que tiene sentido en algunos primeros principios.

Hay un espectro de dejar que los datos hablen. Los modelos completamente bayesianos con fuertes antecedentes estarían en un extremo. Los modelos no paramétricos frecuentes estarían más cerca del otro extremo.

Ben Ogorek
fuente