¿Cuál es la diferencia entre Outlier y Anomaly en el contexto del aprendizaje automático? Tengo entendido que ambos se refieren a lo
¿Cuál es la diferencia entre Outlier y Anomaly en el contexto del aprendizaje automático? Tengo entendido que ambos se refieren a lo
En Kahneman y Deaton (2010) † , los autores escriben lo siguiente:††^\dagger Esta regresión explica el 37% de la varianza, con un error cuadrático medio (RMSE) de 0.67852. Para eliminar los valores atípicos y los informes de ingresos inverosímiles, descartamos observaciones en las que el valor...
Tengo un conjunto de datos con la suposición de que los vecinos más cercanos son los mejores predictores. Solo un ejemplo perfecto de gradiente bidireccional visualizado Supongamos que tenemos un caso en el que faltan pocos valores, podemos predecir fácilmente según los vecinos y la tendencia....
Estoy tratando de separar dos grupos de valores de un solo conjunto de datos. Puedo suponer que una de las poblaciones está normalmente distribuida y tiene al menos la mitad del tamaño de la muestra. Los valores del segundo son más bajos o más altos que los valores del primero (se desconoce la...
¿Cuáles son los pros y los contras de usar LARS [1] versus usar el descenso coordinado para ajustar la regresión lineal regularizada por L1? Estoy principalmente interesado en los aspectos de rendimiento (mis problemas tienden a tener Ncientos de miles y p<20). Sin embargo, cualquier otra...
Tengo una serie diaria bastante predecible con estacionalidad semanal. Puedo hacer predicciones que parecen ser bastante precisas (confirmadas por validación cruzada) cuando no hay vacaciones. Sin embargo, cuando hay vacaciones, tengo los siguientes problemas: En mi pronóstico obtengo números...
Necesito obtener un valor lo más preciso posible para el brillo de una fuente de luz principalmente estable dados doce valores de luminosidad de muestra. El sensor es imperfecto, y la luz ocasionalmente puede "parpadear" más brillante o más oscura, lo que puede ignorarse, de ahí mi necesidad de...
Estoy tratando de detectar valores anómalos en una serie temporal de datos climáticos con algunas observaciones faltantes. Al buscar en la web encontré muchos enfoques disponibles. De ellos, la descomposición stl parece atractiva, en el sentido de eliminar la tendencia y los componentes...
Nota: esta pregunta es una nueva publicación, ya que mi pregunta anterior tuvo que ser eliminada por razones legales. Al comparar PROC MIXED de SAS con la función lmedel nlmepaquete en R, me topé con algunas diferencias bastante confusas. Más específicamente, los grados de libertad en las...
Estoy trabajando en estadísticas para compilaciones de software. Tengo datos para cada compilación en pasar / fallar y el tiempo transcurrido y generamos ~ 200 de estos / semana. La tasa de éxito es fácil de agregar, puedo decir que el 45% pasó cualquier semana. Pero también me gustaría agregar el...
Encontré muchos artículos que afirman que los métodos de impulso son sensibles a los valores atípicos, pero ningún artículo explica por qué. En mi experiencia, los valores atípicos son malos para cualquier algoritmo de aprendizaje automático, pero ¿por qué los métodos de refuerzo son...
Estoy escribiendo un script que analiza los tiempos de ejecución de los procesos. No estoy seguro de su distribución, pero quiero saber si un proceso se ejecuta "demasiado tiempo". Hasta ahora he estado usando 3 desviaciones estándar de los últimos tiempos de ejecución (n> 30), pero me dijeron...
Estoy usando el estimador habitual para la curtosis, , pero noto que incluso pequeños 'valores atípicos' en mi distribución empírica , es decir, pequeños picos lejos del centro, lo afectan enormemente. ¿Existe un estimador de curtosis que sea más
Estoy investigando el campo de la respuesta funcional de los ácaros. Me gustaría hacer una regresión para estimar los parámetros (velocidad de ataque y tiempo de manejo) de la función Rogers tipo II. Tengo un conjunto de datos de medidas. ¿Cómo puedo determinar mejor los valores atípicos? Para mi...
Tengo una regresión logística de intercepción aleatoria (debido a mediciones repetidas) y me gustaría hacer algunos diagnósticos, específicamente en relación con valores atípicos y observaciones influyentes. Miré los residuos para ver si hay observaciones que se destacan. Pero también me gustaría...
¿Se puede utilizar la regresión para la detección de mentiras? Entiendo que hay formas de mejorar un modelo de regresión eliminando los valores atípicos. Pero el objetivo principal aquí no es ajustar un modelo de regresión, sino descubrir mentirosos usando la
Como dice el título, ¿alguien sabe de un buen libro actualizado que cubra el preprocesamiento de datos en general y especialmente las técnicas de detección atípicas? No es necesario que el libro se centre exclusivamente en eso, pero debe tratar exhaustivamente los temas antes mencionados: no...
¿Cuál es la mejor manera de seleccionar automáticamente las características para la detección de anomalías? Normalmente trato la detección de anomalías como un algoritmo en el que las características son seleccionadas por expertos humanos: lo que importa es el rango de salida (como en "entrada...
Estoy tratando de automatizar la detección de valores atípicos en series de tiempo y utilicé una modificación de la solución propuesta por Rob Hyndman aquí . Digamos que mido las visitas diarias a un sitio web de varios países. Para algunos países donde las visitas diarias son de cientos o miles,...
Necesito escribir un programa para encontrar el punto GPS promedio de una población de puntos. En la práctica sucede lo siguiente: Cada mes, una persona registra un punto GPS del mismo activo estático. Debido a la naturaleza del GPS, estos puntos difieren ligeramente cada mes. A veces, la...