¿Significado preciso y comparación entre un punto influyente, un alto punto de apalancamiento y un valor atípico?

15

De Wikipedia

Las observaciones influyentes son aquellas que tienen un efecto relativamente grande en las predicciones del modelo de regresión.

De Wikipedia

Los puntos de apalancamiento son aquellas observaciones, si las hay, hechas a valores extremos o periféricos de las variables independientes, de modo que la falta de observaciones vecinas significa que el modelo de regresión ajustado pasará cerca de esa observación en particular.

¿Por qué es la siguiente comparación de Wikipedia?

Aunque un punto influyente generalmente tendrá un alto apalancamiento , un punto de alto apalancamiento no es necesariamente un punto influyente .

StackExchange para todos
fuente
2
Las respuestas a continuación son buenas. También puede ayudar leer mi respuesta aquí: Interpreting plot.lm () .
gung - Restablece a Monica

Respuestas:

13

Imagine cualquier línea de regresión ajustada a algunos datos.

Ahora imagine un punto de datos adicional, un valor atípico a cierta distancia del cuerpo principal de los datos, pero que se encuentre en algún lugar a lo largo de esa línea de regresión.

Si la línea de regresión se reajustara, los coeficientes no cambiarían. Por el contrario, eliminar el valor atípico adicional tendría cero influencia en los coeficientes.

Por lo tanto, un valor atípico o de influencia tendría cero influencia si fuera perfectamente consistente con el resto de los datos y el modelo que implica el resto.

Para "línea", lea "plano" o "hiperplano" si lo desea, pero el ejemplo más simple de dos variables y un diagrama de dispersión es suficiente aquí.

Sin embargo, como le gustan las definiciones, a menudo parece que tiende a leer demasiado en ellas, esta es mi definición favorita de valores atípicos:

"Los valores atípicos son valores de muestra que causan sorpresa en relación con la mayoría de la muestra" (WN Venables y BD Ripley. 2002. Estadísticas aplicadas modernas con S. New York: Springer, p.119).

Crucialmente, la sorpresa está en la mente del espectador y depende de algún modelo tácito o explícito de los datos. Puede haber otro modelo en el que el valor atípico no sea sorprendente, digamos si los datos son realmente lognormales o gamma en lugar de lo normal.

PD: No creo que los puntos de apalancamiento carezcan necesariamente de observaciones vecinas. Por ejemplo, pueden ocurrir en pares.

Nick Cox
fuente
¡Gracias! ¿Los valores atípicos y los puntos de alto apalancamiento son el mismo concepto? Tenga en cuenta que "El apalancamiento se define típicamente como la diagonal de la matriz de sombreros" de en.wikipedia.org/wiki/Partial_leverage
StackExchange for All
1
No; no nos has demostrado una definición de "atípico", pero se deduce de la definición de los puntos de influencia que no tienen por qué ser valores atípicos sensu Venables y Ripley. (Recomiendo tratar de desconectarse de Wikipedia). Ver también la respuesta de @ Gael.
Nick Cox
1
"Crucialmente, la sorpresa está en la mente del espectador y depende de algún modelo tácito o explícito de los datos. Puede haber otro modelo bajo el cual el valor atípico no es sorprendente, digamos si los datos son realmente lognormales o gamma en lugar de normal." Entonces, ¿los valores atípicos se definen con algún modelo, mientras que los puntos de alto apalancamiento y los puntos influyentes no?
StackExchange for All
1
Venables y Ripley, como lo leí, estaban haciendo un punto inteligente de una manera ingeniosa, y estaban subvirtiendo la ingenua idea de que los valores atípicos pueden definirse mediante declaraciones formales exactas. Pero se pueden encontrar otros tratamientos en diferentes estilos. Por el contrario, el apalancamiento y la influencia pueden definirse formalmente en términos de formas de medirlos. Los dos estilos de uso de terminología no son realmente consistentes. Para tener una mejor idea de cuáles son los valores atípicos y cuáles no, la experiencia del análisis de datos reales enseña más que la lectura de las entradas de la enciclopedia.
Nick Cox
Gael se refirió al comentario el 29 de julio de 2013 ahora está usando el identificador @Gala. Al momento de escribir, solo hay otra respuesta, pero eso puede cambiar.
Nick Cox
20

Es fácil ilustrar cómo un punto de alto apalancamiento podría no influir en el caso de un modelo lineal simple:

Alto apalancamiento pero punto no muy influyente

La línea azul es una línea de regresión basada en todos los datos, la línea roja ignora el punto en la parte superior derecha del gráfico.

Este punto se ajusta a la definición de un punto de alto apalancamiento que acaba de proporcionar, ya que está lejos del resto de los datos. Por eso, la línea de regresión (la azul) tiene que pasar cerca de ella. Pero dado que su posición se ajusta en gran medida al patrón observado en el resto de los datos, el otro modelo lo predeciría muy bien (es decir, la línea roja ya pasa cerca de él en cualquier caso) y, por lo tanto, no es particularmente influyente.

Compare esto con el siguiente diagrama de dispersión:

Alto apalancamiento punto altamente influyente

Aquí, el punto a la derecha del gráfico sigue siendo un punto de apalancamiento alto, pero esta vez realmente no se ajusta al patrón observado en el resto de los datos. La línea azul (el ajuste lineal basado en todos los datos) pasa muy cerca pero la línea roja no. Incluir o excluir este punto cambia las estimaciones de los parámetros dramáticamente: tiene mucha influencia.

Tenga en cuenta que las definiciones que citó y los ejemplos que acabo de dar pueden parecer que implican que los puntos de influencia / influencia elevados son, en cierto sentido, "valores atípicos" univariados y que la línea de regresión ajustada pasará cerca de los puntos con la mayor influencia pero necesita No será el caso.

Punto oculto altamente influyente

En este último ejemplo, la observación en la parte inferior derecha tiene un efecto (relativamente) grande en el ajuste del modelo (visible nuevamente a través de la diferencia entre las líneas roja y azul) pero aún parece estar muy lejos de la línea de regresión siendo indetectable en distribuciones univariadas (representadas aquí por las "alfombras" a lo largo de los ejes).

Gala
fuente
¡Gracias! ¿El punto de alto apalancamiento que usamos aquí es coherente con "el apalancamiento se define típicamente como la diagonal de la matriz de sombreros" de en.wikipedia.org/wiki/Partial_leverage ?
StackExchange for All
Excelente explicación Le agradecería mucho que también proporcione los datos para los tres casos. Gracias
MYaseen208