Primero, debo decir que he buscado en este sitio la respuesta. No encontré una pregunta que respondiera a mi pregunta o mi nivel de conocimiento es tan bajo que no me di cuenta de que ya leí la respuesta.
Estoy estudiando para el Examen de Estadística AP. Tengo que aprender la regresión lineal y uno de los temas son los residuos. Tengo una copia de Introducción a las estadísticas y el análisis de datos en la página 253 que dice.
Los puntos inusuales en un conjunto de datos bivariados son aquellos que se alejan de la mayoría de los otros puntos en el diagrama de dispersión en la dirección o en la dirección
Una observación es potencialmente una observación influyente si tiene un valor que está muy lejos del resto de los datos (separado del resto de los datos en la dirección ). Para determinar si la observación es realmente influyente, evaluamos si la eliminación de esta observación tiene un gran impacto en el valor de la pendiente o la intersección de la línea de mínimos cuadrados.
Una observación es atípica si tiene un gran residuo. La observación atípica cae muy lejos de la línea menos cuadrada en la dirección .
Stattreck.com establece cuatro métodos para determinar un valor atípico de los residuos:
Los puntos de datos que difieren en gran medida del patrón general se denominan valores atípicos. Hay cuatro formas en que un punto de datos puede considerarse un valor atípico.
- Podría tener un valor X extremo en comparación con otros puntos de datos.
- Podría tener un valor Y extremo en comparación con otros puntos de datos.
- Podría tener valores extremos de X e Y.
- Puede estar distante del resto de los datos, incluso sin valores extremos de X o Y.
Estas dos fuentes parecen estar en conflicto entre sí. ¿Alguien podría ayudar a aclarar mi confusión? Además, ¿cómo se define el extremo? Las estadísticas AP utilizan la regla si el punto de datos está fuera de (Q1-1.5IQR, Q3 + 1.5IQR), es un valor atípico. No sé cómo aplicar eso desde solo un gráfico de los residuos.
fuente
Estoy de acuerdo con John Aquí hay algunos puntos más. Una observación influyente es (estrictamente) una que influye en las estimaciones de los parámetros. Una pequeña desviación en el valor Y da un gran cambio en los parámetros beta estimados. En la regresión simple de 1 variable contra otra, las variables influyentes son precisamente aquellas cuyo valor X está distante de la media de las X. En la regresión múltiple (varias variables independientes), la situación es más compleja. Tienes que mirar la diagonal de la llamada matriz de sombreros , y el software de regresión te dará esto. Google "apalancamiento".X(X′X)−1X′
La influencia es una función de los puntos de diseño (los valores X), como dice su libro de texto.
Tenga en cuenta que la influencia es poder. En un experimento diseñado, desea valores X influyentes, suponiendo que puede medir el valor Y correspondiente con precisión. De esa manera obtienes más por el dinero.
Para mí, un valor atípico es básicamente un error, es decir, una observación que no sigue el mismo modelo que el resto de los datos. Esto puede ocurrir debido a un error de recopilación de datos, o porque ese tema en particular era inusual de alguna manera.
No me gusta mucho la definición de stattrek de un valor atípico por varias razones. La regresión no es simétrica en Y y X. Y se modela como una variable aleatoria y se supone que las X son fijas y conocidas. La rareza en las Y no es lo mismo que la rareza en las X. Influencia y outliership significan cosas diferentes. La influencia, en regresión múltiple, no se detecta al observar los gráficos residuales. Una buena descripción de los valores atípicos y la influencia para el caso de una variable única debería configurarlo para comprender el caso múltiple también.
No me gusta su libro de texto aún más, por las razones dadas por John.
En pocas palabras, los valores atípicos influyentes son peligrosos. Necesitan ser examinados de cerca y tratados.
fuente