Detección de valores atípicos mediante regresión

11

¿Se puede utilizar la regresión para la detección de mentiras? Entiendo que hay formas de mejorar un modelo de regresión eliminando los valores atípicos. Pero el objetivo principal aquí no es ajustar un modelo de regresión, sino descubrir mentirosos usando la regresión

usuario48567
fuente
Cuando el ajuste mejora después de ajustar un modelo sin un outlayer, hay evidencia de que este es un valor extremo. Esto puede ser discutible si tiene muchos datos, porque el ajuste será relativamente menos mejorado.
Roman Luštrik
@ RomanLuštrik: esta es una definición muy vacilante de valores atípicos. Por ejemplo, no es coherente con el punto de vista de los valores atípicos utilizados en la respuesta de Glen_b (o para el caso con la definición de valores atípicos utilizados en el libro de texto sobre el tema, como "Estadísticas robustas: teoría y métodos"). ¿Te gustaría citar una fuente que respalde tu definición?
user603
No puedo citar ninguna referencia. Por supuesto, tiene razón, ¿qué es una mejora en el ajuste? La mejora puede ser un asunto muy subjetivo y debe usarse como una guía, no como un valor de corte robótico y juzgarse caso por caso.
Roman Luštrik
Mínimos cuadrados iterativamente ponderados es un método de regresión robusto que se usa comúnmente para encontrar valores atípicos en los datos.
whuber

Respuestas:

13

Su mejor opción para usar la regresión para encontrar valores atípicos es usar una regresión robusta.

La regresión ordinaria puede verse afectada por los valores atípicos de dos maneras:

x¯

En segundo lugar, una observación 'periférica' en el espacio x es una observación influyente : puede arrastrar el ajuste de la línea hacia ella. Si está lo suficientemente lejos, la línea pasará por el punto influyente:

ingrese la descripción de la imagen aquí

En el diagrama de la izquierda, hay un punto que es bastante influyente, y tira de la línea bastante lejos del gran volumen de datos. En el diagrama correcto, se ha movido aún más lejos, y ahora la línea pasa por el punto. Cuando el valor de x es tan extremo, a medida que mueve ese punto hacia arriba y hacia abajo, la línea se mueve con él, pasando por la media de los otros puntos y por el único punto influyente.

Un punto influyente que sea perfectamente consistente con el resto de los datos puede no ser un problema tan grande, pero uno que esté lejos de una línea a través del resto de los datos hará que la línea se ajuste a ella, en lugar de los datos.

Si observa el gráfico de la derecha, la línea roja, la línea de regresión de mínimos cuadrados , no muestra el punto extremo como un valor atípico, su residual es 0. En cambio, los grandes residuos de la línea de mínimos cuadrados están en La parte principal de los datos!

Esto significa que puede perderse por completo un valor atípico .

Peor aún, con la regresión múltiple, un valor atípico en el espacio x puede no parecer particularmente inusual para ninguna variable x. Si existe la posibilidad de tal punto, es potencialmente muy riesgoso utilizar la regresión de mínimos cuadrados.

Regresión robusta

Si ajusta una línea robusta, en particular una outliers robusta a influyente , como la línea verde en la segunda gráfica, entonces el outlier tiene un residuo muy grande.

En ese caso, tiene alguna esperanza de identificar valores atípicos: serán puntos que, en cierto sentido, no están cerca de la línea.


Eliminar valores atípicos

Ciertamente, puede utilizar una regresión robusta para identificar y, por lo tanto, eliminar los valores atípicos.

Pero una vez que tiene un ajuste de regresión robusto, uno que ya no se ve muy afectado por los valores atípicos, no necesariamente necesita eliminar los valores atípicos: ya tiene un modelo que se ajusta bien.

Glen_b -Reinstate a Monica
fuente
1
"a veces no es necesario que elimine los valores atípicos", el objetivo del estudio es encontrar los valores atípicos (por ejemplo, identificación de fraude)
usuario603
1
3
(+1) Buena respuesta, pero es una pena que no mencione ningún método de regresión robusta. Por ejemplo, ¿cómo se trazó la línea verde en la subtrama correcta (y por qué prefiere ese algoritmo sobre los demás)? Tal vez este enlace podría ser útil aquí: regresión lineal rápida robusta a valores atípicos , posiblemente el mejor hilo en CV que discute la regresión robusta.
ameba
-2

Se puede utilizar la regresión para la detección de valores atípicos.

Si. Esta respuesta y la respuesta de Glen_b abordan esto.

El objetivo principal aquí no es ajustar un modelo de regresión, sino descubrir mentirosos usando regresión

Sobre la base del comentario de Roman Lustrik, aquí hay una heurística para encontrar valores atípicos utilizando la regresión (lineal múltiple).

n

  1. n rtotal

  2. ri

  3. rirtotiri<<rtotali

Dejando a un lado estos puntos atípicos candidatos, podemos repetir todo el ejercicio nuevamente con la muestra reducida. En el algoritmo, estamos eligiendo ejemplos en los datos que influyen en el ajuste de regresión de una manera incorrecta (que es una forma de etiquetar un ejemplo como un valor atípico).

Theja
fuente
1
¿Has probado esta estrategia en el conjunto de datos que se muestra aquí ? Más fundamentalmente, su estrategia equivale a afirmar que los valores atípicos se pueden encontrar de manera confiable a partir de los resultados de una cadena de ajustes que minimiza una función de pérdida convexa, lo cual es una falacia conocida cuando hay más de un valor atípico (este enlace muestra esto para el problema relacionado de encontrar valores atípicos multivariados, pero los resultados se aplican también a la regresión).
usuario603
Estoy feliz de eliminar mi respuesta. Pero primero, no entiendo ambas referencias que das y, además, no estoy seguro de por qué hacen que mi respuesta sea incorrecta. ¿Dónde está una 'estrategia' es la primera referencia? ¿Puedes señalar una respuesta específica allí? ¿Qué página y línea de la segunda referencia es relevante aquí y discute la 'falacia'?
Theja
1
Lo siento, solo podría volver a esto ahora. La sección de comentarios es un poco corta para proporcionar un ejemplo y no usaré la sección 'Respuesta' ya que no es la pregunta del OP. Aún así, ¿ha tenido tiempo de probar su metodología con los datos que he vinculado?
usuario603