Preguntas etiquetadas con outliers

13

Diferencia entre anomalía y valores atípicos

¿Cuál es la diferencia entre Outlier y Anomaly en el contexto del aprendizaje automático? Tengo entendido que ambos se refieren a lo

outliers terminology anomaly-detection

13

Descartar valores atípicos basados en "2.5 veces el RMSE"

En Kahneman y Deaton (2010) † , los autores escriben lo siguiente:††^\dagger Esta regresión explica el 37% de la varianza, con un error cuadrático medio (RMSE) de 0.67852. Para eliminar los valores atípicos y los informes de ingresos inverosímiles, descartamos observaciones en las que el valor...

regression outliers

13

utilizando información vecina para imputar datos o encontrar datos fuera de datos (en R)

Tengo un conjunto de datos con la suposición de que los vecinos más cercanos son los mejores predictores. Solo un ejemplo perfecto de gradiente bidireccional visualizado Supongamos que tenemos un caso en el que faltan pocos valores, podemos predecir fácilmente según los vecinos y la tendencia....

r prediction outliers data-imputation multiple-imputation

13

Separar dos poblaciones de la muestra.

Estoy tratando de separar dos grupos de valores de un solo conjunto de datos. Puedo suponer que una de las poblaciones está normalmente distribuida y tiene al menos la mitad del tamaño de la muestra. Los valores del segundo son más bajos o más altos que los valores del primero (se desconoce la...

dataset outliers expectation-maximization

13

LARS vs descenso coordinado para el lazo

¿Cuáles son los pros y los contras de usar LARS [1] versus usar el descenso coordinado para ajustar la regresión lineal regularizada por L1? Estoy principalmente interesado en los aspectos de rendimiento (mis problemas tienden a tener Ncientos de miles y p<20). Sin embargo, cualquier otra...

regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

12

Cómo contabilizar el impacto de las vacaciones en el pronóstico

Tengo una serie diaria bastante predecible con estacionalidad semanal. Puedo hacer predicciones que parecen ser bastante precisas (confirmadas por validación cruzada) cuando no hay vacaciones. Sin embargo, cuando hay vacaciones, tengo los siguientes problemas: En mi pronóstico obtengo números...

time-series forecasting arima outliers

12

Detección de valores atípicos en conjuntos muy pequeños.

Necesito obtener un valor lo más preciso posible para el brillo de una fuente de luz principalmente estable dados doce valores de luminosidad de muestra. El sensor es imperfecto, y la luz ocasionalmente puede "parpadear" más brillante o más oscura, lo que puede ignorarse, de ahí mi necesidad de...

classification outliers algorithms

12

STL en series temporales con valores faltantes para la detección de anomalías

Estoy tratando de detectar valores anómalos en una serie temporal de datos climáticos con algunas observaciones faltantes. Al buscar en la web encontré muchos enfoques disponibles. De ellos, la descomposición stl parece atractiva, en el sentido de eliminar la tendencia y los componentes...

r time-series outliers missing-data

12

Diferencias entre PROC Mixed y lme / lmer en R - grados de libertad

Nota: esta pregunta es una nueva publicación, ya que mi pregunta anterior tuvo que ser eliminada por razones legales. Al comparar PROC MIXED de SAS con la función lmedel nlmepaquete en R, me topé con algunas diferencias bastante confusas. Más específicamente, los grados de libertad en las...

r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

12

¿Buena forma de eliminar los valores atípicos?

Estoy trabajando en estadísticas para compilaciones de software. Tengo datos para cada compilación en pasar / fallar y el tiempo transcurrido y generamos ~ 200 de estos / semana. La tasa de éxito es fácil de agregar, puedo decir que el 45% pasó cualquier semana. Pero también me gustaría agregar el...

outliers robust average

12

por qué el método de refuerzo es sensible a los valores atípicos

Encontré muchos artículos que afirman que los métodos de impulso son sensibles a los valores atípicos, pero ningún artículo explica por qué. En mi experiencia, los valores atípicos son malos para cualquier algoritmo de aprendizaje automático, pero ¿por qué los métodos de refuerzo son...

machine-learning svm outliers cart boosting

11

¿Qué precisión tiene IQR para detectar valores atípicos?

Estoy escribiendo un script que analiza los tiempos de ejecución de los procesos. No estoy seguro de su distribución, pero quiero saber si un proceso se ejecuta "demasiado tiempo". Hasta ahora he estado usando 3 desviaciones estándar de los últimos tiempos de ejecución (n> 30), pero me dijeron...

outliers reliability average

11

Estimación robusta de curtosis?

Estoy usando el estimador habitual para la curtosis, , pero noto que incluso pequeños 'valores atípicos' en mi distribución empírica , es decir, pequeños picos lejos del centro, lo afectan enormemente. ¿Existe un estimador de curtosis que sea más

outliers robust moments kurtosis

11

Identificación de valores atípicos para regresión no lineal

Estoy investigando el campo de la respuesta funcional de los ácaros. Me gustaría hacer una regresión para estimar los parámetros (velocidad de ataque y tiempo de manejo) de la función Rogers tipo II. Tengo un conjunto de datos de medidas. ¿Cómo puedo determinar mejor los valores atípicos? Para mi...

r outliers nonlinear-regression

11

Modelos mixtos lineales generalizados: diagnóstico

Tengo una regresión logística de intercepción aleatoria (debido a mediciones repetidas) y me gustaría hacer algunos diagnósticos, específicamente en relación con valores atípicos y observaciones influyentes. Miré los residuos para ver si hay observaciones que se destacan. Pero también me gustaría...

mixed-model outliers glmm cooks-distance

11

Detección de valores atípicos mediante regresión

¿Se puede utilizar la regresión para la detección de mentiras? Entiendo que hay formas de mejorar un modelo de regresión eliminando los valores atípicos. Pero el objetivo principal aquí no es ajustar un modelo de regresión, sino descubrir mentirosos usando la

regression outliers

11

Buenos libros sobre preprocesamiento de datos y técnicas de detección de valores atípicos.

Como dice el título, ¿alguien sabe de un buen libro actualizado que cubra el preprocesamiento de datos en general y especialmente las técnicas de detección atípicas? No es necesario que el libro se centre exclusivamente en eso, pero debe tratar exhaustivamente los temas antes mencionados: no...

dataset data-mining references outliers

11

Selección automática de funciones para la detección de anomalías.

¿Cuál es la mejor manera de seleccionar automáticamente las características para la detección de anomalías? Normalmente trato la detección de anomalías como un algoritmo en el que las características son seleccionadas por expertos humanos: lo que importa es el rango de salida (como en "entrada...

feature-selection outliers

11

Detección de valores atípicos en series temporales: ¿Cómo reducir los falsos positivos?

Estoy tratando de automatizar la detección de valores atípicos en series de tiempo y utilicé una modificación de la solución propuesta por Rob Hyndman aquí . Digamos que mido las visitas diarias a un sitio web de varios países. Para algunos países donde las visitas diarias son de cientos o miles,...

time-series outliers computational-statistics

11

Encontrar el punto GPS promedio

Necesito escribir un programa para encontrar el punto GPS promedio de una población de puntos. En la práctica sucede lo siguiente: Cada mes, una persona registra un punto GPS del mismo activo estático. Debido a la naturaleza del GPS, estos puntos difieren ligeramente cada mes. A veces, la...

outliers spatial