Al leer el siguiente documento , me encontré con la siguiente declaración:
Como se mencionó, a menudo se presenta sin ninguna referencia a modelos probabilísticos, en línea con la idea de Benzecri [1973] de "dejar que los datos hablen por sí mismos".
(La cita es de JP Benzécri. L'analyse des données. Tomo II: L'analyse des correspondances. Dunod, 1973.)
Por cómo estoy leyendo este documento, parece que "dejar que los datos hablen por sí mismos" significa algo en la línea de considerar varias medidas a través de los datos sin tener en cuenta una función de probabilidad o un proceso de generación de datos .
Si bien he escuchado la cita "deje que los datos hablen por sí mismos" antes, no he pensado mucho en lo que implica. ¿Es mi interpretación anterior lo que implica canónicamente esta cita?
Respuestas:
La interpretación depende del contexto, pero hay algunos contextos comunes en los que esto surge. La declaración se usa a menudo en el análisis bayesiano para enfatizar el hecho de que idealmente nos gustaría que la distribución posterior en el análisis sea robusta a supuestos anteriores, de modo que el efecto de los datos "domine" el posterior. En términos más generales, la cita generalmente significa que queremos que nuestro modelo estadístico se ajuste a la estructura de los datos, en lugar de forzar los datos a una interpretación que es una suposición estructural no verificable del modelo.
La cita particular a la que se refiere se complementa con la cita adicional: "El modelo debe seguir los datos, no al revés" (traducido de Benzécri J (1973) L'Analyse des Données. Tomo II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri argumentó que los modelos estadísticos deberían extraer la estructura de los datos, en lugar de imponer la estructura. Consideró que el uso de métodos gráficos exploratorios es muy importante para permitir que el analista "deje que los datos hablen".
fuente
Alrededor de 2005, cuando "Data Mining" era la última amenaza para la profesión estadística, recuerdo haber visto un póster con "Principios de Data Mining", uno de los cuales era "dejar que los datos hablen" (no recuerdo si "por sí mismo" estaba incluido). Si piensa en algoritmos que podrían considerarse "Minería de datos", le vienen a la mente una partición previa y recursiva, dos algoritmos que pueden motivarse sin supuestos estadísticos y resultan en resúmenes bastante básicos del conjunto de datos subyacente.
@Ben entiende más de la historia de la frase que yo, pero pensando en la cita como se cita en el documento:
me parece que el procedimiento de MCA se parece a una partición a priori o recursiva (o demonios, la media aritmética para el caso) en el sentido de que puede motivarse sin ningún tipo de modelado y es una operación mecánica en un conjunto de datos que tiene sentido en algunos primeros principios.
Hay un espectro de dejar que los datos hablen. Los modelos completamente bayesianos con fuertes antecedentes estarían en un extremo. Los modelos no paramétricos frecuentes estarían más cerca del otro extremo.
fuente