Esto es algo que veo hecho como una especie de método ad-hoc y me parece muy sospechoso, pero tal vez me estoy perdiendo algo. He visto esto en regresión múltiple, pero seamos simples:
Ahora tome los residuos del modelo ajustado
y estratificar la muestra en función del tamaño de los residuos. Por ejemplo, digamos que la primera muestra es el 90% inferior de los residuos y la segunda muestra es el 10% superior, luego proceda a hacer dos comparaciones de muestra: he visto que esto se hace tanto en el predictor en el modelo, , y en variables que no están en el modelo. La lógica informal utilizada es que quizás los puntos que tienen valores muy superiores a los que esperaría en el modelo (es decir, un gran residuo) son diferentes de alguna manera, y esa diferencia se investiga de esta manera.
Mis pensamientos sobre el tema son:
- Si ve una diferencia de 2 muestras en un predictor en el modelo, entonces hay efectos del predictor que el modelo no tiene en cuenta en su estado actual (es decir, efectos no lineales).
- Si ve una diferencia de 2 muestras en una variable que no está en el modelo, entonces tal vez debería haber estado en el modelo en primer lugar.
Una cosa que he encontrado empíricamente (a través de simulaciones) es que, si está comparando la media de un predictor en el modelo y estratificando de esta manera para producir las dos medias de muestra, y , están positivamente correlacionados entre sí. Esto tiene sentido ya que ambas muestras dependen de y . Esa correlación aumenta a medida que mueve el límite hacia abajo (es decir, el% que utiliza para dividir la muestra). Por lo menos, si va a hacer una comparación de dos muestras, el error estándar en el denominador de la¯ x 1 ¯ x 2 ¯ y , ¯ x , σ x , σ y ρ x y tLa estadística necesita ser ajustada para tener en cuenta la correlación (aunque no he derivado una fórmula explícita para la covarianza).
De todos modos, mi pregunta básica es: ¿Hay alguna razón para hacer esto? Si es así, ¿en qué situaciones podría ser útil hacer esto? Claramente, no creo que exista, pero puede haber algo en lo que no estoy pensando de la manera correcta.
fuente
IV
s? Si es así, no puedo ver el punto de esto porque la división residual ya está usando esa información. ¿Puedes dar un ejemplo de dónde has visto esto, es nuevo para mí?Respuestas:
Comparar las medias es demasiado débil: en cambio, compare las distribuciones.
También hay una pregunta sobre si es más deseable comparar los tamaños de los residuos (como se indicó) o comparar los residuos en sí mismos. Por lo tanto, evalúo ambos.
Para ser específico acerca de lo que se entiende, aquí hay un( x , y) y X q0 0 q1> q0 0 X
R
código para comparar datos (dados en matrices paralelas y ) regresando y en x , dividiendo los residuos en tres grupos cortándolos por debajo del cuantil q 0 y por encima del cuantil q 1 > q 0 y (mediante un gráfico qq) comparar las distribuciones de los valores de x asociados con esos dos grupos.x
y
El quinto argumento de esta función,
abs0
por defecto usa los tamaños (valores absolutos) de los residuos para formar los grupos. Más tarde, podemos reemplazar eso por una función que usa los propios residuos.sd
abs0
n.trials
n
n
, beta, sysd
). Ejemplos de estas parcelas aparecen a continuación.Ahora usemos estas herramientas para explorar algunas combinaciones realistas de no linealidad y heterocedasticidad, usando los valores absolutos de los residuos:
Hagamos lo mismo, usando exactamente los mismos datos , pero analizando los residuos mismos. Para hacer esto, el bloque de código anterior se volvió a ejecutar después de hacer esta modificación:
Quizás combinar ambas técnicas funcionaría. Estas simulaciones (y variaciones de ellas, que el lector interesado puede ejecutar en su tiempo libre) demuestran que estas técnicas no carecen de mérito.
fuente
Otros han comentado que esta puede ser solo una herramienta exploratoria para ver si los dos conjuntos de datos deben modelarse por separado. Si ese es el caso, este y posiblemente otros enfoques exploratorios podrían estar bien. Pero la pregunta se convierte en ¿qué haces a continuación? Si va a hacer dos regresiones separadas y hacer inferencia sobre las muestras, creo que debe tener en cuenta de alguna manera la forma en que divide la muestra.
fuente
Supongo que puede haber varias motivaciones para hacer esto, por ejemplo, suponiendo que los residuos son consistentes, entonces el método que menciona puede ayudar a identificar las observaciones periféricas, por lo tanto, el segundo paso proporciona estimadores "corregidos". Pero, existen técnicas más rigurosas que realizan la detección de personas ajenas o que proporcionan estimadores que son robustos a la presencia de tales observaciones, como regresiones cuantiles, LMS (menor mediana de cuadrados) o estimadores M, etc., donde todos estos métodos se han definido bien y propiedades estadísticas conocidas. (Esto ha sido abordado por @Michael Chernik)
Otra motivación podría ser la identificación de conglomerados, pero esto es primitivo en comparación con las técnicas disponibles para la detección de conglomerados, que también están bien definidas y ampliamente implementadas.
En ambos casos, el uso de los residuos parece informal y primitivo, pero aún puede tolerarse como una herramienta exploratoria. También depende del dominio de los lectores. Creo que esto es aceptable para algunas ciencias sociales donde las herramientas cuantitativas pueden ser menos populares.
fuente