¿Cuál es la diferencia entre minería de datos y análisis estadístico?
Para algunos antecedentes, mi educación estadística ha sido, creo, bastante tradicional. Se plantea una pregunta específica, se diseña una investigación y se recopilan y analizan datos para ofrecer una idea de esa pregunta. Como resultado, siempre he sido escéptico de lo que consideraba "dragado de datos", es decir, buscar patrones en un gran conjunto de datos y usar estos patrones para sacar conclusiones. Tiendo a asociar esto último con la minería de datos y siempre he considerado esto algo sin principios (junto con cosas como rutinas de selección de variables algorítmicas).
Sin embargo, existe una gran y creciente literatura sobre minería de datos. A menudo, veo esta etiqueta que se refiere a técnicas específicas como la agrupación, la clasificación basada en árboles, etc. Sin embargo, al menos desde mi perspectiva, estas técnicas se pueden "soltar" en un conjunto de datos o utilizar de manera estructurada para abordar un problema. pregunta. Llamaría a la minería de datos anterior y al último análisis estadístico.
Trabajo en administración académica y se me ha pedido que realice una "extracción de datos" para identificar problemas y oportunidades. De acuerdo con mis antecedentes, mis primeras preguntas fueron: ¿qué quieres aprender y cuáles son las cosas que crees que contribuyen a emitir? De su respuesta, quedó claro que yo y la persona que hacía la pregunta teníamos ideas diferentes sobre la naturaleza y el valor de la minería de datos.
fuente
Respuestas:
Jerome Friedman escribió un artículo hace un tiempo: Minería de datos y estadísticas: ¿Cuál es la conexión? , que creo que encontrarás interesante.
La minería de datos era en gran medida una preocupación comercial e impulsada por las necesidades comerciales (junto con la "necesidad" de que los proveedores vendan sistemas de software y hardware a las empresas). Una cosa que Friedman señaló fue que todas las "características" promocionadas se originaron fuera de las estadísticas, desde algoritmos y métodos como redes neuronales hasta análisis de datos guiados por GUI, y ninguna de las ofertas estadísticas tradicionales parecía ser parte de ninguno de estos sistemas (regresión, prueba de hipótesis, etc.). "Nuestra metodología central ha sido ignorada en gran medida". También se vendió como impulsado por el usuario en la línea de lo que anotó: aquí están mis datos, aquí está mi "pregunta comercial", deme una respuesta.
Creo que Friedman estaba tratando de provocar. No creía que la minería de datos tuviera serios fundamentos intelectuales en lo que respecta a la metodología, pero que esto cambiaría y los estadísticos deberían desempeñar un papel en lugar de ignorarlo.
Mi propia impresión es que esto ha sucedido más o menos. Las líneas han sido borrosas. Los estadísticos ahora publican en revistas de minería de datos. Los mineros de datos en estos días parecen tener algún tipo de entrenamiento estadístico. Si bien los paquetes de minería de datos aún no exageran los modelos lineales generalizados, la regresión logística es bien conocida entre los analistas, además de la agrupación y las redes neuronales. El diseño experimental óptimo puede no ser parte del núcleo de minería de datos, pero el software puede ser inducido a escupir valores p. ¡Progreso!
fuente
La diferencia entre estadísticas y minería de datos es en gran medida histórica, ya que provienen de diferentes tradiciones: estadísticas y ciencias de la computación. La minería de datos creció en paralelo sin trabajo en el área de inteligencia artificial y estadísticas.
La sección 1.4 de Witten & Frank resume mi punto de vista, así que lo citaré en detalle:
NB1 OMI, minería de datos y aprendizaje automático son muy estrechamente términos relacionados. En cierto sentido, las técnicas de aprendizaje automático se utilizan en la minería de datos. Regularmente veo estos términos como intercambiables, y en la medida en que son diferentes, generalmente van juntos. Sugeriría consultar el documento "Las dos culturas" , así como los otros hilos de mi pregunta original.
NB2 El término "minería de datos" puede tener una connotación negativa cuando se usa coloquialmente para significar que algunos algoritmos se sueltan en los datos sin ninguna comprensión conceptual. El sentido es que la minería de datos conducirá a resultados espurios y sobreajuste. Por lo general, evito usar el término cuando hablo con personas que no son expertas, y en su lugar uso el aprendizaje automático o el aprendizaje estadístico como sinónimo.
fuente
La minería de datos se clasifica como descriptiva o predictiva. La minería de datos descriptiva es buscar conjuntos de datos masivos y descubrir las ubicaciones de estructuras o relaciones inesperadas, patrones, tendencias, grupos y valores atípicos en los datos. Por otro lado, Predictive es construir modelos y procedimientos para tareas de regresión, clasificación, reconocimiento de patrones o aprendizaje automático, y evaluar la precisión predictiva de esos modelos y procedimientos cuando se aplican a datos nuevos.
El mecanismo utilizado para buscar patrones o estructuras en datos de alta dimensión puede ser manual o automatizado; la búsqueda puede requerir la consulta interactiva de un sistema de gestión de bases de datos, o puede implicar el uso de software de visualización para detectar anomalías en los datos. En términos de aprendizaje automático, la minería de datos descriptiva se conoce como aprendizaje no supervisado, mientras que la minería de datos predictiva se conoce como aprendizaje supervisado.
La mayoría de los métodos utilizados en la minería de datos están relacionados con los métodos desarrollados en estadística y aprendizaje automático. Los principales de esos métodos son los temas generales de regresión, clasificación, agrupamiento y visualización. Debido a los enormes tamaños de los conjuntos de datos, muchas aplicaciones de minería de datos se centran en técnicas de reducción de dimensionalidad (p. Ej., Selección de variables) y situaciones en las que se sospecha que los datos de alta dimensión se encuentran en hiperplanos de menor dimensión. Se ha dirigido recientemente la atención a métodos para identificar datos de alta dimensión que se encuentran en superficies o colectores no lineales.
También hay situaciones en la minería de datos cuando la inferencia estadística , en su sentido clásico, no tiene significado o es de dudosa validez: la primera ocurre cuando tenemos a toda la población para buscar respuestas, y la segunda ocurre cuando un conjunto de datos es un Muestra de "conveniencia" en lugar de ser una muestra aleatoria extraída de una gran población. Cuando los datos se recopilan a través del tiempo (por ejemplo, transacciones minoristas, transacciones bursátiles, registros de pacientes, registros meteorológicos), el muestreo también puede no tener sentido; La ordenación temporal de las observaciones es crucial para comprender el fenómeno que genera los datos, y tratar las observaciones como independientes cuando pueden estar altamente correlacionadas proporcionará resultados sesgados.
Los componentes centrales de la minería de datos son, además de la teoría y los métodos estadísticos, la eficiencia informática y computacional, el procesamiento automático de datos, las técnicas de visualización de datos dinámicos e interactivos y el desarrollo de algoritmos.
Uno de los problemas más importantes en la minería de datos es el problema computacional de la escalabilidad . Los algoritmos desarrollados para calcular métodos estadísticos exploratorios y confirmatorios estándar fueron diseñados para ser rápidos y computacionalmente eficientes cuando se aplican a conjuntos de datos pequeños y medianos; Sin embargo, se ha demostrado que la mayoría de estos algoritmos no están a la altura del desafío de manejar grandes conjuntos de datos. A medida que crecen los conjuntos de datos, muchos algoritmos existentes demuestran una tendencia a disminuir drásticamente (o incluso detenerse).
fuente
La minería de datos es estadística, con algunas diferencias menores. Puedes pensarlo como estadísticas de cambio de marca, porque los estadísticos son un poco raros.
A menudo se asocia con estadísticas computacionales, es decir, solo cosas que puede hacer con una computadora.
Los mineros de datos robaron una proporción significativa de estadísticas multivariadas y la llamaron suya. Consulte la tabla de contenido de cualquier libro multivariante de la década de 1990 y compárelo con un nuevo libro de minería de datos. Muy similar.
La estadística está asociada con las hipótesis de prueba y con la construcción de modelos, mientras que la minería de datos está más asociada con la predicción y la clasificación, independientemente de si hay un modelo comprensible.
fuente
Anteriormente escribí una publicación donde hice algunas observaciones comparando la minería de datos con la psicología. Creo que estas observaciones pueden capturar algunas de las diferencias que está identificando:
fuente
No creo que la distinción que haga esté realmente relacionada con la diferencia entre la minería de datos y el análisis estadístico. Estás hablando de la diferencia entre el análisis exploratorio y el enfoque de modelado-predicción.
Creo que la tradición de la estadística se construye con todos los pasos: análisis exploratorio, luego modelado, luego estimación, luego prueba, luego pronóstico / inferir. El estadístico hace un análisis exploratorio para descubrir cómo se ven los datos (resumen de la función bajo R!) Supongo que la minería de datos está menos estructurada y podría identificarse con el análisis exploratorio. Sin embargo, utiliza técnicas de estadísticas que son de estimación, pronóstico, clasificación ...
fuente