¿Se puede utilizar la regresión para la detección de mentiras? Entiendo que hay formas de mejorar un modelo de regresión eliminando los valores atípicos. Pero el objetivo principal aquí no es ajustar un modelo de regresión, sino descubrir mentirosos usando la regresión
regression
outliers
usuario48567
fuente
fuente
Respuestas:
Su mejor opción para usar la regresión para encontrar valores atípicos es usar una regresión robusta.
La regresión ordinaria puede verse afectada por los valores atípicos de dos maneras:
En segundo lugar, una observación 'periférica' en el espacio x es una observación influyente : puede arrastrar el ajuste de la línea hacia ella. Si está lo suficientemente lejos, la línea pasará por el punto influyente:
En el diagrama de la izquierda, hay un punto que es bastante influyente, y tira de la línea bastante lejos del gran volumen de datos. En el diagrama correcto, se ha movido aún más lejos, y ahora la línea pasa por el punto. Cuando el valor de x es tan extremo, a medida que mueve ese punto hacia arriba y hacia abajo, la línea se mueve con él, pasando por la media de los otros puntos y por el único punto influyente.
Un punto influyente que sea perfectamente consistente con el resto de los datos puede no ser un problema tan grande, pero uno que esté lejos de una línea a través del resto de los datos hará que la línea se ajuste a ella, en lugar de los datos.
Si observa el gráfico de la derecha, la línea roja, la línea de regresión de mínimos cuadrados , no muestra el punto extremo como un valor atípico, su residual es 0. En cambio, los grandes residuos de la línea de mínimos cuadrados están en La parte principal de los datos!
Esto significa que puede perderse por completo un valor atípico .
Peor aún, con la regresión múltiple, un valor atípico en el espacio x puede no parecer particularmente inusual para ninguna variable x. Si existe la posibilidad de tal punto, es potencialmente muy riesgoso utilizar la regresión de mínimos cuadrados.
Regresión robusta
Si ajusta una línea robusta, en particular una outliers robusta a influyente , como la línea verde en la segunda gráfica, entonces el outlier tiene un residuo muy grande.
En ese caso, tiene alguna esperanza de identificar valores atípicos: serán puntos que, en cierto sentido, no están cerca de la línea.
Eliminar valores atípicos
Ciertamente, puede utilizar una regresión robusta para identificar y, por lo tanto, eliminar los valores atípicos.
Pero una vez que tiene un ajuste de regresión robusto, uno que ya no se ve muy afectado por los valores atípicos, no necesariamente necesita eliminar los valores atípicos: ya tiene un modelo que se ajusta bien.
fuente
Si. Esta respuesta y la respuesta de Glen_b abordan esto.
Sobre la base del comentario de Roman Lustrik, aquí hay una heurística para encontrar valores atípicos utilizando la regresión (lineal múltiple).
Dejando a un lado estos puntos atípicos candidatos, podemos repetir todo el ejercicio nuevamente con la muestra reducida. En el algoritmo, estamos eligiendo ejemplos en los datos que influyen en el ajuste de regresión de una manera incorrecta (que es una forma de etiquetar un ejemplo como un valor atípico).
fuente