¿Cuál es la diferencia entre minería de datos y análisis estadístico?

19

¿Cuál es la diferencia entre minería de datos y análisis estadístico?

Para algunos antecedentes, mi educación estadística ha sido, creo, bastante tradicional. Se plantea una pregunta específica, se diseña una investigación y se recopilan y analizan datos para ofrecer una idea de esa pregunta. Como resultado, siempre he sido escéptico de lo que consideraba "dragado de datos", es decir, buscar patrones en un gran conjunto de datos y usar estos patrones para sacar conclusiones. Tiendo a asociar esto último con la minería de datos y siempre he considerado esto algo sin principios (junto con cosas como rutinas de selección de variables algorítmicas).

Sin embargo, existe una gran y creciente literatura sobre minería de datos. A menudo, veo esta etiqueta que se refiere a técnicas específicas como la agrupación, la clasificación basada en árboles, etc. Sin embargo, al menos desde mi perspectiva, estas técnicas se pueden "soltar" en un conjunto de datos o utilizar de manera estructurada para abordar un problema. pregunta. Llamaría a la minería de datos anterior y al último análisis estadístico.

Trabajo en administración académica y se me ha pedido que realice una "extracción de datos" para identificar problemas y oportunidades. De acuerdo con mis antecedentes, mis primeras preguntas fueron: ¿qué quieres aprender y cuáles son las cosas que crees que contribuyen a emitir? De su respuesta, quedó claro que yo y la persona que hacía la pregunta teníamos ideas diferentes sobre la naturaleza y el valor de la minería de datos.

Brett
fuente
1
¿duplicar? stats.stackexchange.com/questions/6/…
Neil McGuigan
3
Si está duplicado, ¡puedo adivinar que la minería de datos y el aprendizaje automático son lo mismo!
George Dontas
@George Dontas Sí, vine aquí desde un enlace en los comentarios si la otra pregunta con la esperanza de ver que había una diferencia entre ML y minería de datos.
DJG

Respuestas:

20

Jerome Friedman escribió un artículo hace un tiempo: Minería de datos y estadísticas: ¿Cuál es la conexión? , que creo que encontrarás interesante.

La minería de datos era en gran medida una preocupación comercial e impulsada por las necesidades comerciales (junto con la "necesidad" de que los proveedores vendan sistemas de software y hardware a las empresas). Una cosa que Friedman señaló fue que todas las "características" promocionadas se originaron fuera de las estadísticas, desde algoritmos y métodos como redes neuronales hasta análisis de datos guiados por GUI, y ninguna de las ofertas estadísticas tradicionales parecía ser parte de ninguno de estos sistemas (regresión, prueba de hipótesis, etc.). "Nuestra metodología central ha sido ignorada en gran medida". También se vendió como impulsado por el usuario en la línea de lo que anotó: aquí están mis datos, aquí está mi "pregunta comercial", deme una respuesta.

Creo que Friedman estaba tratando de provocar. No creía que la minería de datos tuviera serios fundamentos intelectuales en lo que respecta a la metodología, pero que esto cambiaría y los estadísticos deberían desempeñar un papel en lugar de ignorarlo.

Mi propia impresión es que esto ha sucedido más o menos. Las líneas han sido borrosas. Los estadísticos ahora publican en revistas de minería de datos. Los mineros de datos en estos días parecen tener algún tipo de entrenamiento estadístico. Si bien los paquetes de minería de datos aún no exageran los modelos lineales generalizados, la regresión logística es bien conocida entre los analistas, además de la agrupación y las redes neuronales. El diseño experimental óptimo puede no ser parte del núcleo de minería de datos, pero el software puede ser inducido a escupir valores p. ¡Progreso!

ars
fuente
1
Este es un gran documento y es consistente con mi perspectiva sobre qué es la minería de datos y cómo difiere de las estadísticas. El problema es que es de 1997! Tenga en cuenta una acusación del documento o su recomendación, pero el grado en que me he mantenido al día con la extracción de datos. Parece que necesito tomar un libro actual sobre minería de datos para ponerme al día.
Brett
Heh, mantuve la fecha a propósito porque pensé que sería divertido notar el lapso de tiempo. :) Los libros de Michael Berry y Gordon Linoff son bastante buenos y atraerán a los estadísticos (para una exposición más amplia en lugar de aprender técnicas estadísticas). Si desea tener una idea del lado difuso y "empresarial" de este campo, puede ser de gran ayuda hojear uno de los libros de un producto del proveedor, como Enterprise Miner de SAS o Clementine de SPSS. No recomendaría comprarlos a menos que vaya a trabajar con el producto en sí.
ars
10

La diferencia entre estadísticas y minería de datos es en gran medida histórica, ya que provienen de diferentes tradiciones: estadísticas y ciencias de la computación. La minería de datos creció en paralelo sin trabajo en el área de inteligencia artificial y estadísticas.

La sección 1.4 de Witten & Frank resume mi punto de vista, así que lo citaré en detalle:

¿Cuál es la diferencia entre el aprendizaje automático y las estadísticas? Los cínicos, mirando con ironía la explosión de interés comercial (y exageración) en esta área, equiparan la minería de datos con las estadísticas más el marketing. En verdad, no debe buscar una línea divisoria entre el aprendizaje automático y las estadísticas porque hay un continuo, y uno multidimensional, de las técnicas de análisis de datos. Algunos se derivan de las habilidades que se enseñan en los cursos estándar de estadística, y otros están más estrechamente asociados con el tipo de aprendizaje automático que surgió de la informática. Históricamente, las dos partes han tenido tradiciones bastante diferentes. Si se ve obligado a señalar una única diferencia de énfasis, es posible que las estadísticas se hayan preocupado más por probar hipótesis,

En el pasado, se desarrollaron métodos muy similares en paralelo en el aprendizaje automático y las estadísticas ...

Pero ahora las dos perspectivas han convergido.

NB1 OMI, minería de datos y aprendizaje automático son muy estrechamente términos relacionados. En cierto sentido, las técnicas de aprendizaje automático se utilizan en la minería de datos. Regularmente veo estos términos como intercambiables, y en la medida en que son diferentes, generalmente van juntos. Sugeriría consultar el documento "Las dos culturas" , así como los otros hilos de mi pregunta original.

NB2 El término "minería de datos" puede tener una connotación negativa cuando se usa coloquialmente para significar que algunos algoritmos se sueltan en los datos sin ninguna comprensión conceptual. El sentido es que la minería de datos conducirá a resultados espurios y sobreajuste. Por lo general, evito usar el término cuando hablo con personas que no son expertas, y en su lugar uso el aprendizaje automático o el aprendizaje estadístico como sinónimo.

Shane
fuente
Acerca de NB2: creo que tiene toda la razón con respecto a la connotación de la minería de datos y no había hecho la conexión con el aprendizaje automático. Mi entrenamiento siempre enfatizó los problemas de sobreajuste, espuria y capitalización del azar y, como tal, he sido escéptico sobre la DM, y aún lo soy, tal vez hasta que alguien realmente me diga QUÉ están haciendo y CÓMO. Gracias.
Brett
1
Mi única objeción sobre la distinción ML / DM sería que creo que DM es más amplio. Por ejemplo, OLAP y herramientas relacionadas incluyen tecnologías de minería. Pero estos provienen del lado de la base de datos de la informática en lugar del aprendizaje automático. El papel del comercio en la configuración del "significado" de la minería de datos es difícil de ignorar: incorpora elementos de ciencias de gestión, investigación de operaciones, aprendizaje automático y estadísticas, según sea necesario. También da la impresión de algo endeble, pero eso suele ser un problema para los puristas, no para los profesionales.
ars
@ars: estoy de acuerdo. Estaba tratando de decir eso un poco diciendo "las técnicas de aprendizaje automático se utilizan en la minería de datos" (es decir, la minería de datos es un superconjunto). Su punto sobre las aplicaciones comerciales también es acertado. Aunque alguien en una aplicación comercial hoy en día podría referirse a su trabajo como algo más (por ejemplo, "ciencia de datos").
Shane
Bien, debería haber dicho que estaba tratando de profundizar las diferencias, en lugar de discutir con lo que escribiste. Disculpas por la mala dirección. Buen punto sobre tiempos y términos cambiantes como la adopción de la "ciencia de datos". ¿No comienza uno de los libros de Gelman con algo como "la estadística es la ciencia de los datos"? Entonces "están" robando a los estadísticos. De nuevo. :)
ars
8

La minería de datos se clasifica como descriptiva o predictiva. La minería de datos descriptiva es buscar conjuntos de datos masivos y descubrir las ubicaciones de estructuras o relaciones inesperadas, patrones, tendencias, grupos y valores atípicos en los datos. Por otro lado, Predictive es construir modelos y procedimientos para tareas de regresión, clasificación, reconocimiento de patrones o aprendizaje automático, y evaluar la precisión predictiva de esos modelos y procedimientos cuando se aplican a datos nuevos.

El mecanismo utilizado para buscar patrones o estructuras en datos de alta dimensión puede ser manual o automatizado; la búsqueda puede requerir la consulta interactiva de un sistema de gestión de bases de datos, o puede implicar el uso de software de visualización para detectar anomalías en los datos. En términos de aprendizaje automático, la minería de datos descriptiva se conoce como aprendizaje no supervisado, mientras que la minería de datos predictiva se conoce como aprendizaje supervisado.

La mayoría de los métodos utilizados en la minería de datos están relacionados con los métodos desarrollados en estadística y aprendizaje automático. Los principales de esos métodos son los temas generales de regresión, clasificación, agrupamiento y visualización. Debido a los enormes tamaños de los conjuntos de datos, muchas aplicaciones de minería de datos se centran en técnicas de reducción de dimensionalidad (p. Ej., Selección de variables) y situaciones en las que se sospecha que los datos de alta dimensión se encuentran en hiperplanos de menor dimensión. Se ha dirigido recientemente la atención a métodos para identificar datos de alta dimensión que se encuentran en superficies o colectores no lineales.

También hay situaciones en la minería de datos cuando la inferencia estadística , en su sentido clásico, no tiene significado o es de dudosa validez: la primera ocurre cuando tenemos a toda la población para buscar respuestas, y la segunda ocurre cuando un conjunto de datos es un Muestra de "conveniencia" en lugar de ser una muestra aleatoria extraída de una gran población. Cuando los datos se recopilan a través del tiempo (por ejemplo, transacciones minoristas, transacciones bursátiles, registros de pacientes, registros meteorológicos), el muestreo también puede no tener sentido; La ordenación temporal de las observaciones es crucial para comprender el fenómeno que genera los datos, y tratar las observaciones como independientes cuando pueden estar altamente correlacionadas proporcionará resultados sesgados.

Los componentes centrales de la minería de datos son, además de la teoría y los métodos estadísticos, la eficiencia informática y computacional, el procesamiento automático de datos, las técnicas de visualización de datos dinámicos e interactivos y el desarrollo de algoritmos.

Uno de los problemas más importantes en la minería de datos es el problema computacional de la escalabilidad . Los algoritmos desarrollados para calcular métodos estadísticos exploratorios y confirmatorios estándar fueron diseñados para ser rápidos y computacionalmente eficientes cuando se aplican a conjuntos de datos pequeños y medianos; Sin embargo, se ha demostrado que la mayoría de estos algoritmos no están a la altura del desafío de manejar grandes conjuntos de datos. A medida que crecen los conjuntos de datos, muchos algoritmos existentes demuestran una tendencia a disminuir drásticamente (o incluso detenerse).

George Dontas
fuente
8

La minería de datos es estadística, con algunas diferencias menores. Puedes pensarlo como estadísticas de cambio de marca, porque los estadísticos son un poco raros.

A menudo se asocia con estadísticas computacionales, es decir, solo cosas que puede hacer con una computadora.

Los mineros de datos robaron una proporción significativa de estadísticas multivariadas y la llamaron suya. Consulte la tabla de contenido de cualquier libro multivariante de la década de 1990 y compárelo con un nuevo libro de minería de datos. Muy similar.

La estadística está asociada con las hipótesis de prueba y con la construcción de modelos, mientras que la minería de datos está más asociada con la predicción y la clasificación, independientemente de si hay un modelo comprensible.

Neil McGuigan
fuente
1
¿Cuál es el duplicado? No puedo ver nada obvio.
Rob Hyndman
1
Bastante similar a este, pensé: stats.stackexchange.com/questions/6/…
Neil McGuigan
1
Okay. Estaba buscando minería de datos, no aprendizaje automático. Vote para cerrar si cree que es un duplicado.
Rob Hyndman
Hmm, entonces ¿Minería de datos == Machine Learning?
ars
1
1) No veo la distinción de estadísticas de compensación. No hay mucho que los estadísticos hagan que no requiera una computadora. Supongo que te refieres a procedimientos computacionalmente intensivos como soluciones iterativas, etc. Pero entonces, estos también son comunes en el trabajo estadístico moderno que no es la minería de datos. 2) En mi propio trabajo (estadísticas), he estado interesado en la construcción de modelos para la explicación y la predicción, dependiendo del problema: no habría considerado esa minería de datos. 3) Me queda la conclusión de que la DM moderna es una aplicación particular de las estadísticas, que creo que es una buena conclusión.
Brett
6

Anteriormente escribí una publicación donde hice algunas observaciones comparando la minería de datos con la psicología. Creo que estas observaciones pueden capturar algunas de las diferencias que está identificando:

  1. "La minería de datos parece estar más preocupada por la predicción utilizando variables observadas que por comprender el sistema causal de las variables latentes; la psicología suele estar más preocupada por el sistema causal de las variables latentes.
  2. La minería de datos generalmente involucra conjuntos de datos masivos (por ejemplo, más de 10,000 filas) recopilados para un propósito diferente al propósito de la minería de datos. Los conjuntos de datos psicológicos suelen ser pequeños (por ejemplo, menos de 1,000 o 100 filas) y se recopilan explícitamente para explorar una pregunta de investigación.
  3. El análisis psicológico generalmente implica probar modelos específicos. Los enfoques de desarrollo de modelos automatizados tienden a no ser teóricamente interesantes ". - Minería de datos y R
Jeromy Anglim
fuente
Creo que los puntos 2 y 3 son comentarios útiles y consistentes con lo que veo como la distinción entre los dos SA y DM. No estoy tan seguro de tu primer punto. He realizado trabajos estadísticos en los que estaba interesado en mejorar la comprensión de las relaciones causales. Sin embargo, también he realizado un trabajo estadístico en el que la tarea era tomar relaciones conocidas y desarrollar modelos con el único propósito de predicción pero que no compartían ninguna de las otras características de la "minería de datos".
Brett
4

No creo que la distinción que haga esté realmente relacionada con la diferencia entre la minería de datos y el análisis estadístico. Estás hablando de la diferencia entre el análisis exploratorio y el enfoque de modelado-predicción.

Creo que la tradición de la estadística se construye con todos los pasos: análisis exploratorio, luego modelado, luego estimación, luego prueba, luego pronóstico / inferir. El estadístico hace un análisis exploratorio para descubrir cómo se ven los datos (resumen de la función bajo R!) Supongo que la minería de datos está menos estructurada y podría identificarse con el análisis exploratorio. Sin embargo, utiliza técnicas de estadísticas que son de estimación, pronóstico, clasificación ...

robin girard
fuente
Yo puedo comprar eso. La minería de datos es una aplicación más exploratoria de técnicas estadísticas. Sin embargo, no creo que esa distinción sea suficiente. Cuando estoy haciendo EDA en mi conjunto de 100 observaciones de un experimento diseñado, no creo que nadie llame a eso minería de datos, ¿verdad?
Brett