Tengo curiosidad, para aquellos de ustedes que tienen una amplia experiencia colaborando con otros investigadores, ¿cuáles son algunas de las ideas falsas más comunes sobre la regresión lineal que encuentran?
Creo que puede ser un ejercicio útil para pensar en conceptos erróneos comunes con anticipación para
Anticipe los errores de las personas y sea capaz de articular con éxito por qué algunos conceptos erróneos son incorrectos.
¡Date cuenta si estoy albergando algunas ideas falsas!
Un par de básicos que puedo pensar:
Las variables independientes / dependientes deben distribuirse normalmente
Las variables deben ser estandarizadas para una interpretación precisa
¿Cualquier otro?
Todas las respuestas son bienvenidas.
Respuestas:
Falsa premisa: A significa que no hay una relación fuerte entre DV y IV.β^≈0
Las relaciones funcionales no lineales abundan y, sin embargo, los datos producidos por muchas de estas relaciones a menudo producirían pendientes casi nulas si se supone que la relación debe ser lineal, o incluso aproximadamente lineal.
De manera similar, en otra premisa falsa, los investigadores a menudo suponen, posiblemente porque muchos libros de texto introductorios de regresión enseñan, que uno "prueba la no linealidad" al construir una serie de regresiones del DV sobre expansiones polinómicas del IV (por ejemplo, , seguido de , seguido porY∼β0+βXX+ε Y∼β0+βXX+βX2X2+ε Y∼β0+βXX+βX2X2+βX3X3+ε , etc.) Así como la línea recta no puede representar una relación funcional no lineal entre DV y IV, una parábola no puede representar literalmente un número infinito de relaciones no lineales (por ejemplo, sinusoides, cicloides, funciones escalonadas, efectos de saturación, curvas s, etc. ad infinitum). ) En su lugar, se puede adoptar un enfoque de regresión que no asume ninguna forma funcional particular (por ejemplo, suavizadores de línea de ejecución, GAM, etc.).
Una tercera premisa falsa es que aumentar el número de parámetros estimados necesariamente resulta en una pérdida de poder estadístico. Esto puede ser falso cuando la relación verdadera no es lineal y requiere múltiples parámetros para estimar (por ejemplo, una función de "barra rota" requiere no solo los términos de intercepción y pendiente de una línea recta, sino que requiere un punto en el que la pendiente cambia y cuánto cambios de pendiente por estimaciones también): los residuos de un modelo mal especificado (por ejemplo, una línea recta) pueden crecer bastante (en relación con una relación funcional correctamente especificada), lo que resulta en una probabilidad de rechazo más baja e intervalos de confianza e intervalos de predicción más amplios (además de que las estimaciones están sesgadas) .
fuente
Es muy común suponer que sólo los datos están sujetos a error de medición (o al menos, que este es el único error que consideraremos). Pero esto ignora la posibilidad, y las consecuencias, de error en las mediciones . Esto podría ser particularmente agudo en estudios observacionales donde las variables no están bajo control experimental.y x x
La dilución de regresión o la atenuación de regresión es el fenómeno reconocido por Spearman (1904) por el cual la pendiente de regresión estimada en la regresión lineal simple está sesgada hacia cero por la presencia de un error de medición en la variable independiente. Suponga que la pendiente verdadera es positiva: el efecto de fluctuar lascoordenadaslos puntos(tal vez se visualice más fácilmente como "manchando" los puntos horizontalmente) es hacer que la línea de regresión sea menos empinada. Intuitivamente, los puntos con unagrandeahora tienen más probabilidades de serlo debido a un error de medición positivo, mientras que elvalores más probable que refleje el valor verdadero (sin errores) de, y por lo tanto sea más bajo de lo que sería la línea verdadera. para lo observadox x y x x .
En modelos más complejos, el error de medición en las variables puede producir efectos más complicados en las estimaciones de los parámetros. Hay errores en los modelos de variables que tienen en cuenta dicho error. Spearman sugirió que se ha desarrollado un factor de corrección para atenuar los coeficientes de correlación bivariados y otros factores de corrección para situaciones más sofisticadas. Sin embargo, tales correcciones pueden ser difíciles, particularmente en el caso multivariante y en presencia de factores de confusión, y puede ser controvertido si la corrección es una mejora genuina, véase, por ejemplo, Smith y Phillips (1996).x
Así que supongo que se trata de dos conceptos erróneos por el precio de uno: por un lado, es un error pensar que la forma en que escribimos significa "todo el error está en la " e ignoramos Posibilidad física real de errores de medición en las variables independientes. Por otro lado, puede ser desaconsejable aplicar "correcciones" a ciegas para el error de medición en todas las situaciones como una respuesta instintiva (aunque puede ser una buena idea tomar medidas para reducir el error de medición en primer lugar) .yy=Xβ+ε y
(Probablemente también debería vincularme a algunos otros modelos comunes de error en variables, en un orden cada vez más general: regresión ortogonal , regresión de Deming y mínimos cuadrados totales ).
Referencias
Smith, GD y Phillips, AN (1996). " Inflación en epidemiología: 'la prueba y medición de la asociación entre dos cosas' revisitada ". British Medical Journal , 312 (7047), 1659-1661.
Spearman, C. (1904). "La prueba y la medida de la asociación entre dos cosas". American Journal of Psychology 15 : 72-101.
fuente
Existen algunos malentendidos estándar que se aplican en este contexto, así como en otros contextos estadísticos: por ejemplo, el significado de los valores , inferir incorrectamente la causalidad, etc.p
Un par de malentendidos que creo que son específicos de la regresión múltiple son:
fuente
Diría que la primera que enumere es probablemente la más común, y quizás la más ampliamente enseñada de esa manera, de las cosas que claramente se consideran incorrectas, pero aquí hay algunas otras que son menos claras en algunas situaciones ( si realmente se aplican) pero pueden afectar aún más análisis, y tal vez más en serio. Estos a menudo simplemente nunca se mencionan cuando se introduce el tema de la regresión.
Tratar como muestras aleatorias de la población de interés conjuntos de observaciones que posiblemente no pueden ser cercanas a las representativas (y mucho menos muestreadas al azar). [En cambio, algunos estudios podrían verse como algo más cercano a las muestras de conveniencia]
Con los datos de observación, simplemente ignorando las consecuencias de omitir los impulsores importantes del proceso que ciertamente sesgarían las estimaciones de los coeficientes de las variables incluidas (en muchos casos, incluso para cambiar probablemente su signo), sin intentar considerar formas de tratar con ellos (ya sea por ignorancia del problema o simplemente sin darse cuenta de que se puede hacer algo). [Algunas áreas de investigación tienen este problema más que otras, ya sea por los tipos de datos que se recopilan o porque las personas en algunas áreas de aplicación tienen más probabilidades de haber recibido información sobre el tema.]
Regresión espuria (principalmente con datos recopilados a lo largo del tiempo). [Incluso cuando las personas son conscientes de que esto sucede, existe otra idea errónea común de que simplemente diferenciarse del supuesto estacionario es suficiente para evitar por completo el problema].
Por supuesto, hay muchos otros que podría mencionarse (por ejemplo, tratar como datos independientes que casi con toda seguridad estarán correlacionados en serie o incluso integrados puede ser casi tan común).
Puede notar que los estudios de observación de los datos recopilados a lo largo del tiempo pueden verse afectados por todos estos a la vez ... sin embargo, ese tipo de estudio es muy común en muchas áreas de investigación donde la regresión es una herramienta estándar. La forma en que pueden llegar a la publicación sin que un solo revisor o editor sepa sobre al menos uno de ellos y al menos requiera cierto nivel de exención de responsabilidad en las conclusiones me sigue preocupando.
Las estadísticas están plagadas de problemas de resultados irreproducibles cuando se trata de experimentos controlados con bastante cuidado (cuando se combinan con análisis quizás no tan cuidadosamente controlados), por lo que, tan pronto como uno se sale de esos límites, ¿cuánto peor debe ser la situación de reproducibilidad?
fuente
Probablemente no llamaría a estos conceptos erróneos, pero tal vez puntos comunes de confusión / complejos y, en algunos casos, problemas de los que los investigadores pueden no estar al tanto.
En el lado erróneo de las cosas:
fuente
En mi experiencia, los estudiantes frecuentemente adoptan la opinión de que los errores al cuadrado (o la regresión OLS) son algo inherentemente apropiado, preciso y en general bueno de usar, o incluso no tienen alternativa. Con frecuencia he visto publicidad de OLS junto con comentarios de que "da mayor peso a observaciones más extremas / desviadas", y la mayoría de las veces al menos está implícito que esta es una propiedad deseable. Esta noción puede modificarse más tarde, cuando se introduce el tratamiento de valores atípicos y enfoques robustos, pero en ese punto el daño ya está hecho. Podría decirse que el uso generalizado de errores al cuadrado históricamente tiene más que ver con su conveniencia matemática que con alguna ley natural de los costos de errores del mundo real.
En general, se podría hacer mayor hincapié en el entendimiento de que la elección de la función de error es algo arbitraria. Idealmente, cualquier elección de penalización dentro de un algoritmo debe guiarse por la correspondiente función de costo del mundo real asociada con un error potencial (es decir, utilizando un marco de toma de decisiones). ¿Por qué no establecer este principio primero y luego ver qué tan bien podemos hacerlo?
fuente
Otro concepto erróneo común es que el término de error (o perturbación en el lenguaje econométrico) y los residuos son la misma cosa.
El término de error es una variable aleatoria en el modelo verdadero o proceso de generación de datos , y a menudo se supone que sigue una cierta distribución, mientras que los residuales son las desviaciones de los datos observados del modelo ajustado. Como tal, los residuos pueden considerarse estimaciones de los errores.
fuente
El error más común que encuentro es que la regresión lineal supone la normalidad de los errores. No lo hace. La normalidad es útil en relación con algunos aspectos de la regresión lineal, por ejemplo, propiedades de muestras pequeñas, como los límites de confianza de los coeficientes. Incluso para estas cosas hay valores asintóticos disponibles para distribuciones no normales.
El segundo más común es un grupo de confusión con respecto a la endogeneidad, por ejemplo, no tener cuidado con los circuitos de retroalimentación. Si hay un ciclo de retroalimentación de Y a X, es un problema.
fuente
Un error que cometí es asumir una simetría de X e Y en la OLS. Por ejemplo, si asumo una relación lineal con a y b dada por mi software usando OLS, entonces creo que asumir X como una función de Y dará a OLS los coeficientes: que está mal.X = 1
Tal vez esto también esté relacionado con la diferencia entre OLS y el componente principal mínimo cuadrado o primer total.
fuente
El que he visto a menudo es una idea errónea sobre la aplicabilidad de la regresión lineal en ciertos casos de uso, en la práctica.
Por ejemplo, supongamos que la variable que nos interesa es el conteo de algo (ejemplo: visitantes en el sitio web) o la proporción de algo (ejemplo: tasas de conversión). En tales casos, la variable puede modelarse mejor utilizando funciones de enlace como Poisson (recuentos), Beta (proporciones), etc. Por lo tanto, usar un modelo generalizado con una función de enlace más apropiada es más adecuado. Pero solo porque la variable no es categórica, he visto personas que comienzan con una regresión lineal simple (función de enlace = identidad). Incluso si ignoramos las implicaciones de precisión, los supuestos de modelado son un problema aquí.
fuente
Aquí hay uno que creo es frecuentemente ignorado por los investigadores:
fuente
Otro error común es que las estimaciones (valores ajustados) no son invariables a las transformaciones, por ejemplo
Esto aparece todo el tiempo cuando realiza una transformación logarítmica de sus datos, ajusta una regresión lineal, luego expone el valor ajustado y la gente lo lee como la regresión. Esta no es la media, esta es la mediana (si las cosas están realmente distribuidas normalmente de forma logarítmica).
fuente