tl; dr
- ¿Cuál es la forma recomendada de manejar los
discrete
datos cuando se realiza la detección de anomalías? - ¿Cuál es la forma recomendada de manejar los
categorical
datos cuando se realiza la detección de anomalías? - Esta respuesta sugiere usar datos discretos para simplemente filtrar los resultados.
- ¿Quizás reemplazar el valor de la categoría con la posibilidad de observación del perctage?
Introducción
Esta es la primera vez que publico aquí, así que, por favor, si algo no parece técnicamente correcto, ya sea en el formato o en el uso de definiciones correctas, me interesa saber qué debería haberse usado en su lugar.
Adelante.
Recientemente participé en la clase de Machine Learning de Andrew Ng
Para la detección de anomalías, se nos ha enseñado a determinar cuáles son los parámetros de distribución Normal / Gaussiana para una característica / variable dada, dentro de un conjunto de datos, y luego determinar la probabilidad de un conjunto elegido de ejemplos de entrenamiento / valor de observación dado ese particular Distribución gaussiana, y luego tomando el producto de las probabilidades de las características.
Método
Elija las características / variables que creemos que explican la actividad en cuestión: { x 1 , x 2 , ... , x i }
Ajuste los parámetros de Gauss para cada característica: σ2=1
Para cada ejemplo de entrenamiento, , calcule: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
Luego marcamos como una anomalía ( ), dado: y = { 1
Esto nos da el método para determinar si un ejemplo requiere una inspección más profunda.
Mis preguntas)
Esto parece estar bien para variables / características continuas, pero no se abordan datos discretos.
Preguntas: (actualizado: 24/11/2015)
¿Existe otro método que tenga en cuenta lo que estoy preguntando aquí y que pueda seguir investigando / aprendiendo?- ¿Cuál es la forma recomendada de manejar los
discrete
datos cuando se realiza la detección de anomalías? - ¿Cuál es la forma recomendada de manejar los
categorical
datos cuando se realiza la detección de anomalías?
Editar: 2017-05-03
- Esta respuesta sugiere usar datos discretos para simplemente filtrar los resultados.
- ¿Quizás reemplazar el valor de la categoría con la posibilidad de observación del perctage?
fuente
Respuestas:
En general, para las características discretas * y categóricas, este método no es particularmente adecuado para análisis atípicos. Como no hay una magnitud asociada con los predictores categóricos, estamos trabajando con:
Tenga en cuenta que ninguna de estas cualidades se puede analizar de forma aislada, como lo requiere su método gaussiano. En cambio, necesitamos un método que contextualice las características categóricas y considere la naturaleza correlacional de los datos.
Estas son algunas técnicas para datos de atributos categóricos y mixtos, basados en el análisis de valores atípicos de Aggarwal:
* Las características discretas podrían manejarse aproximadamente en su método gaussiano. En las condiciones adecuadas, una característica puede aproximarse bien mediante una distribución normal (por ejemplo, variable aleatoria binomial con npq> 3). Si no, manipúlelos como ordinales descritos anteriormente.
** Esto es similar a su idea de "reemplazar el valor de la categoría con el porcentaje de probabilidad de observación"
fuente
Las matemáticas de la clase Andrew Ng manejan datos "discretos" de la misma manera que manejan datos "no discretos". Todo lo que tenemos que hacer es estimar empíricamente los parámetros de distribución normales, y se puede hacer perfectamente para datos discretos.
Si lo piensa, el aprendizaje automático siempre trata con datos discretos de todos modos: el número de puntos de datos no es infinito y el número de bits manejados por las computadoras no es infinito.
Si se pueden comparar puntos de datos discretos entre sí, entonces no hay una diferencia fundamental para los métodos de aprendizaje automático cuando se trata, por ejemplo, de longitud: 1.15 pies 1.34 pies 3.4 pies
o cuántas ramas hay en el árbol: 1 2 3 5
Puede sumar y promediar coma flotante o números enteros de la misma manera.
Ahora, a datos categóricos. Los puntos de datos categóricos no se pueden comparar (coche vs motocicleta vs barco). Como manejamos esto?
El número de categorías tiene que ser al menos dos para tener sentido, de lo contrario, ¿cuál es el punto en la función constante? En el caso de 2 categorías, podemos representar una característica de categoría como una característica binaria {0, 1}. 0 y 1 se pueden usar para las matemáticas, así que ver arriba.
Si el número de categorías (K) es [3 .. inf], asignamos nuestra característica única a K características binarias mutuamente excluyentes. Por ejemplo, la categoría "motocicleta" se convierte en una combinación de características binarias {IsCar: 0, IsMotorcycle: 1, IsBoat: 0}, el punto de barco se convierte en {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} y así sucesivamente.
Podemos estimar los parámetros de distribución empírica a partir de estas nuevas características. Simplemente tendremos más dimensiones, eso es todo.
fuente