Indicios de que un problema es adecuado para la regresión lineal.

12

Estoy aprendiendo regresión lineal usando Introducción al análisis de regresión lineal de Montgomery, Peck y Vining . Me gustaría elegir un proyecto de análisis de datos.

Tengo la ingenua idea de que la regresión lineal es adecuada solo cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas y la variable de respuesta. Pero no muchas aplicaciones del mundo real parecen cumplir con este criterio. Sin embargo, la regresión lineal es tan frecuente.

En qué facetas de un proyecto estaría pensando un estadístico experimentado si estuviera en mi lugar, buscando una pregunta + datos que sean adecuados para la regresión lineal.

cwackers
fuente
3
Le agradezco que esté aprendiendo una técnica y quiera saber dónde funcionará. Pero para los estadísticos experimentados (y los científicos con mentalidad estadística) la situación es completamente al revés: hay un problema y datos y luego la pregunta es qué tipo de modelos y métodos son la mejor opción. Verá que la regresión lineal como se encuentra por primera vez es solo un sabor; Con experiencia, las personas están felices de saltar a la regresión de Poisson, la regresión logit, etc. e incluso la linealidad en los parámetros se puede combinar fácilmente con estructuras más generales.
Nick Cox
y, por supuesto, series temporales cuando las observaciones están potencialmente autocorrelacionadas
IrishStat
3
En realidad, los modelos lineales se usan de izquierda a derecha, incluso cuando sabemos que la relación es no lineal. Piense en un modelo lineal como una aproximación de primer orden, una especie de expansión de Taylor multivariante.
Aksakal

Respuestas:

12

Tengo la ingenua idea de que la regresión lineal es adecuada solo cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas y la variable de respuesta. Pero no muchas aplicaciones del mundo real parecen cumplir con este criterio.

Esta no es una comprensión correcta de lo que es "lineal" en "regresión lineal".

No se supone que la relación entre y las es de forma lineal (aunque es probable que todos los ejemplos elementales lo engañen).xyx

El "lineal" se refiere a que el modelo es lineal en los parámetros, y las relaciones no lineales entre y algo ciertamente se pueden modelar de esa manera.xyx

Hay un ejemplo con un solo predictor aquí , pero los modelos curvilíneas son más a menudo equipado de regresión múltiple, en donde pueden ocurrir varias funciones de un predictor (variable x, variable independiente) en la regresión, y esto permite que una gran cantidad de flexibilidad. Esto incluye la regresión polinómica, por ejemplo. Vea algunas discusiones y ejemplos aquí .

Sin embargo, si tenemos en cuenta el hecho de que los predictores pueden transformarse para ajustarse a las relaciones curvas, la linealidad en los parámetros también corresponde a la linealidad en esos predictores transformados.

Además, muchos problemas son cercanos a los lineales (al menos sobre el rango de valores considerados), o son tan ruidosos que no se puede discernir una curvatura leve, y una variedad de modelos simples para una relación creciente o decreciente podría funcionar: y en ese caso, una elección lineal puede ser adecuada y la más simple de ajustar y comprender.

En qué facetas de un proyecto estaría pensando un estadístico experimentado si estuviera en mi lugar, buscando una pregunta + datos que sean adecuados para la regresión lineal.

El único momento en el que podría buscar un problema para aplicar la regresión sería cuando estoy tratando de encontrar un buen ejemplo para la enseñanza. Cuando realmente estoy en la posición de hacer un trabajo estadístico (en lugar de explicarlo o enseñarlo), elijo la metodología que se adapte a la pregunta de interés (y las características de los datos), en lugar de elegir los datos que se adapten al método.

Imagine un carpintero, por ejemplo. El carpintero no toma un porta-radios y dice "¿en qué puedo usar esto ?". Más bien, el carpintero tiene un problema que resolver, y al considerar las características del problema ("¿qué estoy tratando de hacer?" Y "¿qué tipo de madera estoy usando?", Etc.) pueden ser herramientas particulares Más relevante que otros. A veces, las herramientas disponibles pueden limitar o guiar las opciones (si no tiene un porta-radios, puede que tenga que arreglárselas con otra cosa ... o simplemente debe comprar un porta-radios).

Sin embargo, vamos a suponer que usted tiene un estadístico bolsillo ayudar a usted a cabo y que está tratando de encontrar un problema adecuado para la regresión lineal. Entonces podrían sugerirle que considere varios supuestos de regresión y cuándo importan. Mencionaré algunas cosas.

Si simplemente está interesado en ajustar una relación entre yy algunos x univariados (posiblemente transformados), la mayoría de los supuestos no necesariamente le importan (el teorema de Gauss-Markov puede ser de alguna relevancia). Estaría buscando un caso en el que piense que es aproximadamente lineal en para algún conocido - (es decir, supone que conocemos la forma funcional de relación que queremos) . Al escribir , necesitamos que sea ​​al menos aproximadamente cierto.g ( x ) g x = xE(y|g(x))g(x)gx=xE(y|x)=a+bx

Si puede usar la regresión múltiple, incluso eso no es especialmente un problema importante, ya que uno puede usar (por ejemplo) splines de regresión cúbica para ajustarse a relaciones bastante generales.

Te sugiero que te mantengas alejado de los datos con el tiempo a menos que entiendas los problemas con la regresión espuria; atenerse a problemas de sección transversal.

Si está tratando con una sola , espero que quiera una continua en lugar de categórica .xxx

No querrá tener un error de medición en la menos que esté interesado en el condicionamiento de las expectativas en el valor medido .x

Si le interesan las pruebas de hipótesis, los intervalos de confianza o los intervalos de predicción, entonces pueden ser importantes más de los supuestos de regresión habituales (pero hay alternativas que no hacen esos supuestos, y en algunos casos, al menos algunos de los supuestos pueden no serlo). ser particularmente importante de todos modos).

Por lo tanto, una cosa que al menos tratar de tener en cuenta es cuáles son esas suposiciones que se hacen al derivar los procedimientos inferenciales que está utilizando y cuán importantes pueden ser en su problema particular (como un ejemplo, al realizar las pruebas de hipótesis habituales, la normalidad es una suposición, pero en grandes muestras esa suposición puede no ser importante; por otro lado, la suposición de la varianza constante puede ser un problema mayor).

Hay una serie de publicaciones que discuten los supuestos de regresión, y algunas publicaciones que discuten cuándo deben hacerse, y cuánto pueden importar, e incluso en qué orden considerarlas.

Glen_b -Reinstate a Monica
fuente
Buena respuesta, pero creo que no responde la pregunta por completo. En qué facetas de un proyecto estaría pensando un estadístico experimentado si estuviera en mi lugar, buscando una pregunta + datos que sean adecuados para la regresión lineal. permanece sin respuesta.
Dawny33
@ Dawny33 Definitivamente tengo la intención de agregar más a esto más tarde; surgieron algunas cosas mientras escribía lo que me impidió escribir la respuesta completa que originalmente pretendía; Tuve tiempo solo para terminar la oración en la que estaba, y ahora es posible que no vuelva a hablar por un día o dos. De hecho, ni siquiera tuve tiempo de corregir todos los errores tipográficos. (Mientras tanto, no debe dudar en publicar una respuesta). Por otro lado, señalar que la premisa de la pregunta es defectuosa puede llevar al OP a querer preguntar cosas diferentes de lo que originalmente pretendían (a menudo es el caso cuando premisa central falla)
Glen_b -Reinstate Monica
Por ejemplo, anticipo que una nueva pregunta que podría surgir sería "¿tiene un ejemplo?".
Glen_b -Reinstate Monica
@Glen_b gracias. El "lineal" se refiere al modelo que es lineal en los parámetros . Lo siento si escribí mal, no quise decir lo contrario. La palabra clave era funcional .
cwackers
@Glen_b podrían sugerirle que considere varios supuestos de regresión . De acuerdo de nuevo. No fui explícito sobre esto, pero mi Q es más sobre el conocimiento del dominio. Me pregunto qué buscaría un estadístico experimentado en el sistema que se está considerando para el análisis LR, de ahí mi ingenua propuesta de que haya regresores que estén relacionados lineal y funcionalmente con la respuesta, y cuya relación simultánea con la respuesta sea aditiva.
cwackers
4

YYYYYX) bien. A lo largo de muchos años de experiencia, verá que ciertas variables, como la presión arterial, tienden a comportarse bien en un modelo lineal y otras (p. Ej., Mediciones de química sanguínea) no.

YY

Frank Harrell
fuente
Gracias por señalar el aspecto de portarse bien. He pensado en las transformaciones de los regresores, pero no en la variable de respuesta. Sin embargo, ahora veo cómo el último podría usarse para remodelar la distribución de los residuos. Gracias por completar parte de la imagen. Una publicación muy útil.
cwackers
3

@Glen_b dio una muy buena respuesta pero, como se señaló, no llegó a terminar.

Entonces, en cuanto a tu última pregunta:

Un estadístico experimentado, creo, no haría esta pregunta. Como señala Glen, el problema dicta las herramientas a usar, no al revés.

Si intentara aprender una técnica como la regresión lineal, usaría ejemplos ya trabajados, pero que tenían datos reales, no datos inventados diseñados para facilitar las cosas. Un libro como Modelado de regresión por ejemplo puede proporcionar orientación.

Sin embargo, uno de los primeros pasos para observar un problema de regresión es decidir si la regresión lineal es, de hecho, adecuada.

Peter Flom - Restablece a Monica
fuente
Un estadístico experimentado, creo, no haría esta pregunta. sí, por eso califiqué mi Q con "en mis zapatos". Muchas gracias por la recomendación del libro. Rastrearé una copia. Una gran cantidad de ejemplos ayudaría al menos como la mitad de la historia, con contraejemplos siendo la otra mitad.
cwackers
Ahhh, una cita! de la página 2 de la 4a edición: Invitamos a los lectores a pensar sobre preguntas (en sus propias áreas de trabajo, investigación o interés) que pueden abordarse mediante el análisis de regresión.
cwackers
0

Muchas respuestas se han referido a los supuestos que deben cumplirse: linealidad en los residuos, homogeneidad de varianza en el rango del predictor, no hay valores extremos que puedan influir en la línea de regresión y observaciones independientes. Los gráficos residuales son bastante fáciles de producir con la mayoría de los programas de regresión y algunos paquetes proporcionan algunos automáticamente (SAS).

Una persona habló sobre transformar y. Esta es una práctica común en algunas áreas, pero es una práctica que conduce a resultados sesgados y posiblemente no interpretables. El sesgo aparece cuando intenta volver a transformar los resultados en la métrica original. Es mejor cambiar a otro tipo de regresión que tenga un patrón residual que coincida con los supuestos de distribución del residual. Vea el capítulo 3 en la Introducción de Agresti al análisis de datos categóricos donde presenta el concepto de enlaces. Varios libros de texto de regresión también presentan el modelo lineal generalizado.

Leslie
fuente
No comparto el pesimismo sobre la transformación. Después de todo, la transformación original es bastante arbitraria. Si transforma y obtiene residuos con una distribución simétrica, la transformación inversa de los valores pronosticados es la mediana pronosticada en la escala original. Las medianas predichas son bastante útiles. Si desea obtener los medios pronosticados en la escala original, puede usar el estimador de dispersión.
Frank Harrell