Leí un artículo wiki sobre Apriori. Tengo el problema de entender la ciruela y el paso Join. ¿Alguien puede explicarme cómo funciona el algoritmo Apriori en términos simples (de modo que un principiante como yo pueda entenderlo fácilmente)?
Será bueno si alguien explica el proceso paso a paso involucrado en él.
data-mining
algorithms
frequentist
Hormiga
fuente
fuente
Respuestas:
El artículo de Wikipedia no es particularmente impresionante. Puede encontrar estas diapositivas más útiles: 1 , 2 , 3 .
En cada nivel , tiene conjuntos de elementos que son frecuentes (tienen soporte suficiente). kk k
En el siguiente nivel, los conjuntos de elementos + que debe tener en cuenta deben tener la propiedad de que cada uno de sus subconjuntos debe ser frecuente (contar con el apoyo suficiente). Esta es la propiedad a priori : cualquier subconjunto de elementos frecuentes debe ser frecuente.1k 1
Entonces, si sabe en el nivel 2 que los conjuntos , , y son los únicos conjuntos con suficiente soporte, entonces en el nivel 3, los une entre sí para producir , , y pero solo necesita considerar más: los otros tienen subconjuntos con soporte insuficiente (como o ).{ 1 , 3 } { 1 , 5 } { 3 , 5 } { 1 , 2 , 3 } { 1 , 2 , 5 } { 1 , 3 , 5 } { 2 , 3 , 5 } { 1 , 3 , 5 } { 2 , 3 } {{1,2} {1,3} {1,5} {3,5} {1,2,3} {1,2,5} {1,3,5} {2,3,5} {1,3,5} {2,3} {2,5}
fuente
El algoritmo Apriori es un algoritmo de minería de reglas de asociación utilizado en la minería de datos. Se utiliza para encontrar el conjunto de elementos frecuentes entre el número dado de transacciones.
Consiste básicamente en dos pasos
Repitiendo estos pasos k veces, donde k es el número de elementos, en la última iteración obtienes conjuntos de elementos frecuentes que contienen k elementos.
Busque aquí una explicación muy simple con un ejemplo detallado http://nikhilvithlani.blogspot.com/2012/03/apriori-algorithm-for-data-mining-made.html .
Tiene una explicación simple sin ecuaciones complicadas.
fuente
Apriori en inglés simple.
Apriori emplea un enfoque iterativo conocido como búsqueda por nivel, donde los conjuntos de elementos k se utilizan para explorar conjuntos de elementos (k + 1) . Primero, el conjunto de conjuntos frecuentes de 1 ítems se encuentra escaneando la base de datos para acumular el recuento de cada ítem y recolectando aquellos ítems que satisfacen un soporte mínimo. El conjunto resultante se denota como L1 . A continuación, L1 se usa para encontrar L2 , el conjunto de conjuntos frecuentes de 2 elementos , que se utiliza para encontrar L3, y así sucesivamente, hasta que no se puedan encontrar conjuntos de elementos k más frecuentes . El hallazgo de cada Lk requiere un escaneo completo de la base de datos.
En la iteración final, terminarás con muchos conjuntos de elementos k que básicamente se llaman reglas de asociación . Para seleccionar reglas interesantes del conjunto de todas las reglas posibles, se aplican varias medidas de restricción , como el soporte y la confianza .
Términos y terminologías
Soporte = no. De translaciones que contienen 'a' y 'b' / no total de transacción.
Soporte => supp (a, b) => p (a U b)
Confiado = No. de transacciones que contienen 'a' y 'b' / no de transacciones que contienen 'a'.
Confiado => con (a, b) ==> P (b | a) nada más que probabilidad condicional.
fuente