Si tengo un modelo de regresión:
¿Cuándo usar , el estimador de mínimos cuadrados ordinario de , sería una mala elección para un estimador?
Estoy tratando de encontrar un ejemplo en el que los mínimos cuadrados funcionen mal. Por lo tanto, estoy buscando una distribución de los errores que satisfaga las hipótesis anteriores pero que arroje malos resultados. Si la familia de la distribución estuviera determinada por la media y la varianza, eso sería excelente. Si no, está bien también.
Sé que los "malos resultados" son un poco vagos, pero creo que la idea es comprensible.
Solo para evitar confusiones, sé que los mínimos cuadrados no son óptimos, y que hay mejores estimadores como la regresión de crestas. Pero eso no es a lo que apunto. Quiero un ejemplo donde los mínimos cuadrados no serían naturales.
Puedo imaginar cosas como, el vector de error vive en una región no convexa de , pero no estoy seguro de eso.
Edición 1: como una idea para ayudar a una respuesta (que no puedo entender cómo seguir adelante). es AZUL. Por lo tanto, podría ser útil pensar cuándo un estimador lineal imparcial no sería una buena idea.
Edición 2: como señaló Brian, si está mal condicionado, entonces es una mala idea porque la varianza es demasiado grande, y en su lugar debería usarse la Regresión de cresta. Estoy más interesado en saber qué distribución debe para que los mínimos cuadrados funcionen mal.
¿Hay una distribución con media cero y matriz de varianza de identidad para que hace que este estimador no sea eficiente?
Respuestas:
La respuesta de Brian Borchers es bastante buena: los datos que contienen valores atípicos extraños a menudo no son bien analizados por OLS. Solo voy a ampliar esto agregando una imagen, un Monte Carlo y algo de
R
código.Este modelo se ajusta a su configuración con un coeficiente de pendiente de 1.
El gráfico adjunto muestra un conjunto de datos que consta de 100 observaciones en este modelo, con la variable x que va de 0 a 1. En el conjunto de datos trazado, hay un sorteo del error que aparece con un valor atípico (+31 en este caso) . También se trazan la línea de regresión OLS en azul y la línea de regresión de desviaciones menos absolutas en rojo. Observe cómo OLS pero no LAD está distorsionado por el valor atípico:
R
Tanto OLS como LAD producen estimadores insesgados (las pendientes son 1.00 en promedio sobre las 10,000 repeticiones) OLS produce un estimador con una desviación estándar mucho mayor, sin embargo, 0,34 frente a 0,09. Por lo tanto, OLS no es el mejor / más eficiente entre los estimadores imparciales, aquí. Todavía es AZUL, por supuesto, pero LAD no es lineal, por lo que no hay contradicción. Observe los errores salvajes que OLS puede cometer en la columna Min y Max. No tan LAD.
Aquí está el código R para el gráfico y el Monte Carlo:
fuente
Un ejemplo sería donde no desea estimar la media. Esto surgió en el trabajo que solía hacer cuando estábamos estimando el número de parejas sexuales que tenían las personas, como parte de modelar la propagación del VIH / SIDA. Hubo más interés en las colas de la distribución: ¿Qué personas tienen muchos socios?
En este caso, puede desear una regresión cuantil; Un método infrautilizado, en mi opinión.
fuente
fuente