Minería de datos relacionales sin ILP

9

Tengo un gran conjunto de datos de una base de datos relacional para la que necesito crear un modelo de clasificación. Normalmente para esta situación, usaría Programación Lógica Inductiva (ILP), pero debido a circunstancias especiales no puedo hacer eso.

La otra forma de abordar esto sería tratar de agregar los valores cuando tengo una relación extranjera. Sin embargo, tengo miles de filas importantes y distintas para algunos atributos nominales (por ejemplo: un paciente con una relación con varias recetas distintas de medicamentos). Por lo tanto, no puedo hacer eso sin crear un nuevo atributo para cada fila distinta de ese atributo nominal, y además la mayoría de las nuevas columnas tendrían valores NULL si lo hago.

¿Existe algún algoritmo que no sea ILP que me permita extraer datos de bases de datos relacionales sin recurrir a técnicas como pivotar, que crearían miles de nuevas columnas?

usuario697110
fuente
2
¿Qué pasa con las reglas de minería? No me queda claro cuál es su objetivo.
adesantos
Si bien es una buena pregunta, noto que aparece en varios foros de Stack Exchange ... stackoverflow.com/questions/24260299/… ; No es que sea un fanático de cosas como esas, pero creo que no debemos hacerlo
Hack-R
Además, sería muy útil si pudiera ser un poco más específico con respecto a lo que está clasificando, la barrera que está encontrando y en un mundo ideal nos proporcione algunos datos de muestra para mirar
Hack-R

Respuestas:

1

Primero, algunas advertencias

No estoy seguro de por qué no puede usar su (sub) paradigma de programación preferido *, la Programación lógica inductiva (ILP) o qué es lo que está tratando de clasificar. Dar más detalles probablemente conduciría a una respuesta mucho mejor; especialmente porque es un poco inusual abordar la selección de algoritmos de clasificación sobre la base del paradigma de programación con el que están asociados. Si su ejemplo del mundo real es confidencial, simplemente invente un ejemplo ficticio pero análogo.

Clasificación de Big Data sin ILP

Dicho esto, después de descartar ILP, tenemos otros 4 paradigmas de programación lógica en nuestro conjunto de consideraciones:

  1. Secuestrador
  2. Conjunto de respuestas
  3. Restricción
  4. Funcional

Además de las docenas de paradigmas y sub-paradigmas fuera de la programación lógica.

Dentro de la programación lógica funcional, por ejemplo, existen extensiones de ILP llamadas Programación lógica funcional inductiva , que se basa en el estrechamiento de la inversión (es decir, la inversión del mecanismo de estrechamiento). Este enfoque supera varias limitaciones de ILP y ( según algunos académicos, al menos ) es tan adecuado para la aplicación en términos de representación y tiene el beneficio de permitir que los problemas se expresen de una manera más natural.

Sin saber más acerca de los detalles de su base de datos y las barreras que enfrenta para usar ILP, no puedo saber si esto resuelve su problema o sufre los mismos problemas. Como tal, también descartaré un enfoque completamente diferente.

ILP se contrasta con los enfoques "clásicos" o "proposicionales" para la minería de datos . Esos enfoques incluyen la carne y los huesos del aprendizaje automático, como árboles de decisión, redes neuronales, regresión, embolsado y otros métodos estadísticos. En lugar de renunciar a estos enfoques debido al tamaño de sus datos, puede unirse a las filas de muchos científicos de datos, ingenieros de Big Data y estadísticos que utilizan High Performance Computing (HPC) para emplear estos métodos con conjuntos de datos masivos (hay también el muestreo y otras técnicas estadísticas que puede optar por utilizar para reducir los recursos computacionales y el tiempo requerido para analizar Big Data en su base de datos relacional).

HPC incluye cosas como utilizar múltiples núcleos de CPU, ampliar su análisis con el uso elástico de servidores con alta memoria y grandes cantidades de núcleos de CPU rápidos, usar dispositivos de almacenamiento de datos de alto rendimiento, emplear clústeres u otras formas de computación paralela, etc. No estoy seguro de con qué lenguaje o conjunto estadístico está analizando sus datos, pero como ejemplo, esta Vista de tareas CRAN enumera muchos recursos de HPC para el lenguaje R que le permitirían ampliar un algoritmo proposicional.

Hack-R
fuente