¿Cuándo los mínimos cuadrados serían una mala idea?

11

Si tengo un modelo de regresión:

Y=Xβ+ε
donde V[ε]=IdRn×n y E[ε]=(0,,0) ,

¿Cuándo usar βOLS , el estimador de mínimos cuadrados ordinario de β , sería una mala elección para un estimador?

Estoy tratando de encontrar un ejemplo en el que los mínimos cuadrados funcionen mal. Por lo tanto, estoy buscando una distribución de los errores que satisfaga las hipótesis anteriores pero que arroje malos resultados. Si la familia de la distribución estuviera determinada por la media y la varianza, eso sería excelente. Si no, está bien también.

Sé que los "malos resultados" son un poco vagos, pero creo que la idea es comprensible.

Solo para evitar confusiones, sé que los mínimos cuadrados no son óptimos, y que hay mejores estimadores como la regresión de crestas. Pero eso no es a lo que apunto. Quiero un ejemplo donde los mínimos cuadrados no serían naturales.

Puedo imaginar cosas como, el vector de error ϵ vive en una región no convexa de Rn , pero no estoy seguro de eso.

Edición 1: como una idea para ayudar a una respuesta (que no puedo entender cómo seguir adelante). βOLS es AZUL. Por lo tanto, podría ser útil pensar cuándo un estimador lineal imparcial no sería una buena idea.

Edición 2: como señaló Brian, si XX está mal condicionado, entonces βOLS es una mala idea porque la varianza es demasiado grande, y en su lugar debería usarse la Regresión de cresta. Estoy más interesado en saber qué distribución debe ε para que los mínimos cuadrados funcionen mal.

βOLSβ+(XX)1Xε ¿Hay una distribución con media cero y matriz de varianza de identidad paraε que hace que este estimador no sea eficiente?

Manuel
fuente
1
No quiero sonar duro, pero no estoy completamente seguro de lo que quieres. Hay muchas formas en que algo podría ser una mala elección. Por lo general, evaluamos estimadores en términos de sesgo , varianza , robustez y eficiencia . Por ejemplo, como notará, el estimador OLS es AZUL .
gung - Restablece a Monica
1
OTOH, la varianza podría ser tan grande como inútil, haciendo preferible un estimador de varianza más baja pero sesgado. Otro ejemplo es que OLS utiliza al máximo toda la información en sus datos, pero esto lo hace susceptible a los valores atípicos. Hay muchas funciones alternativas de pérdida que son más robustas, mientras intentan mantener la eficiencia. Podría ser más claro si pudiera volver a enmarcar su pregunta en términos como estos. No sé lo que significa que un estimador sea "antinatural".
gung - Restablece a Monica
Gracias por tu comentario, me hizo darme cuenta de la ambigüedad de la pregunta. Espero que esté más claro ahora
Manuel
Vea la regresión en esta respuesta . En resumen: los valores atípicos influyentes pueden ser un problema.
Glen_b -Reinstala a Mónica el

Respuestas:

8

La respuesta de Brian Borchers es bastante buena: los datos que contienen valores atípicos extraños a menudo no son bien analizados por OLS. Solo voy a ampliar esto agregando una imagen, un Monte Carlo y algo de Rcódigo.

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Este modelo se ajusta a su configuración con un coeficiente de pendiente de 1.

El gráfico adjunto muestra un conjunto de datos que consta de 100 observaciones en este modelo, con la variable x que va de 0 a 1. En el conjunto de datos trazado, hay un sorteo del error que aparece con un valor atípico (+31 en este caso) . También se trazan la línea de regresión OLS en azul y la línea de regresión de desviaciones menos absolutas en rojo. Observe cómo OLS pero no LAD está distorsionado por el valor atípico:

OLS vs LAD con un valor atípico

xϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Tanto OLS como LAD producen estimadores insesgados (las pendientes son 1.00 en promedio sobre las 10,000 repeticiones) OLS produce un estimador con una desviación estándar mucho mayor, sin embargo, 0,34 frente a 0,09. Por lo tanto, OLS no es el mejor / más eficiente entre los estimadores imparciales, aquí. Todavía es AZUL, por supuesto, pero LAD no es lineal, por lo que no hay contradicción. Observe los errores salvajes que OLS puede cometer en la columna Min y Max. No tan LAD.

Aquí está el código R para el gráfico y el Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)
Cuenta
fuente
@Manuel Gracias. Capté un error en mi programa R --- había un 0.04 donde debería haber un sqrt (0.04). No cambió el empuje de la respuesta. Hizo una pequeña diferencia en los resultados. Sin embargo, si copió el código anteriormente, debe copiarlo nuevamente ahora.
Bill
7

Un ejemplo sería donde no desea estimar la media. Esto surgió en el trabajo que solía hacer cuando estábamos estimando el número de parejas sexuales que tenían las personas, como parte de modelar la propagación del VIH / SIDA. Hubo más interés en las colas de la distribución: ¿Qué personas tienen muchos socios?

En este caso, puede desear una regresión cuantil; Un método infrautilizado, en mi opinión.

Peter Flom - Restablece a Monica
fuente
β
Y
Sí, quise decir la media de Y. Eso es lo que hace la regresión OLS.
Peter Flom - Restablece a Monica
(xa)2+(xb)2L1
6

X

ϵ

ϵβ

Brian Borchers
fuente
ε
1
Además, Gauss-Markov asegura que los mínimos cuadrados sean un estimador imparcial de varianza mínima entre lineal. Puede ser que los estimadores lineales no sean razonables para algún tipo de distribución. Eso es lo que quiero entender.
Manuel
ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ
X=1β=0β^
Creo que su segundo comentario es lo que estoy buscando. Simplemente me molesta la baja probabilidad de que suceda. Además, a partir de ese ejemplo, es bastante claro cómo construir un mejor estimador al conocer la distribución de los errores.
Manuel