Las observaciones influyentes son aquellas que tienen un efecto relativamente grande en las predicciones del modelo de regresión.
Los puntos de apalancamiento son aquellas observaciones, si las hay, hechas a valores extremos o periféricos de las variables independientes, de modo que la falta de observaciones vecinas significa que el modelo de regresión ajustado pasará cerca de esa observación en particular.
¿Por qué es la siguiente comparación de Wikipedia?
Aunque un punto influyente generalmente tendrá un alto apalancamiento , un punto de alto apalancamiento no es necesariamente un punto influyente .
regression
outliers
leverage
StackExchange para todos
fuente
fuente
Respuestas:
Imagine cualquier línea de regresión ajustada a algunos datos.
Ahora imagine un punto de datos adicional, un valor atípico a cierta distancia del cuerpo principal de los datos, pero que se encuentre en algún lugar a lo largo de esa línea de regresión.
Si la línea de regresión se reajustara, los coeficientes no cambiarían. Por el contrario, eliminar el valor atípico adicional tendría cero influencia en los coeficientes.
Por lo tanto, un valor atípico o de influencia tendría cero influencia si fuera perfectamente consistente con el resto de los datos y el modelo que implica el resto.
Para "línea", lea "plano" o "hiperplano" si lo desea, pero el ejemplo más simple de dos variables y un diagrama de dispersión es suficiente aquí.
Sin embargo, como le gustan las definiciones, a menudo parece que tiende a leer demasiado en ellas, esta es mi definición favorita de valores atípicos:
"Los valores atípicos son valores de muestra que causan sorpresa en relación con la mayoría de la muestra" (WN Venables y BD Ripley. 2002. Estadísticas aplicadas modernas con S. New York: Springer, p.119).
Crucialmente, la sorpresa está en la mente del espectador y depende de algún modelo tácito o explícito de los datos. Puede haber otro modelo en el que el valor atípico no sea sorprendente, digamos si los datos son realmente lognormales o gamma en lugar de lo normal.
PD: No creo que los puntos de apalancamiento carezcan necesariamente de observaciones vecinas. Por ejemplo, pueden ocurrir en pares.
fuente
Es fácil ilustrar cómo un punto de alto apalancamiento podría no influir en el caso de un modelo lineal simple:
La línea azul es una línea de regresión basada en todos los datos, la línea roja ignora el punto en la parte superior derecha del gráfico.
Este punto se ajusta a la definición de un punto de alto apalancamiento que acaba de proporcionar, ya que está lejos del resto de los datos. Por eso, la línea de regresión (la azul) tiene que pasar cerca de ella. Pero dado que su posición se ajusta en gran medida al patrón observado en el resto de los datos, el otro modelo lo predeciría muy bien (es decir, la línea roja ya pasa cerca de él en cualquier caso) y, por lo tanto, no es particularmente influyente.
Compare esto con el siguiente diagrama de dispersión:
Aquí, el punto a la derecha del gráfico sigue siendo un punto de apalancamiento alto, pero esta vez realmente no se ajusta al patrón observado en el resto de los datos. La línea azul (el ajuste lineal basado en todos los datos) pasa muy cerca pero la línea roja no. Incluir o excluir este punto cambia las estimaciones de los parámetros dramáticamente: tiene mucha influencia.
Tenga en cuenta que las definiciones que citó y los ejemplos que acabo de dar pueden parecer que implican que los puntos de influencia / influencia elevados son, en cierto sentido, "valores atípicos" univariados y que la línea de regresión ajustada pasará cerca de los puntos con la mayor influencia pero necesita No será el caso.
En este último ejemplo, la observación en la parte inferior derecha tiene un efecto (relativamente) grande en el ajuste del modelo (visible nuevamente a través de la diferencia entre las líneas roja y azul) pero aún parece estar muy lejos de la línea de regresión siendo indetectable en distribuciones univariadas (representadas aquí por las "alfombras" a lo largo de los ejes).
fuente