Estoy aprendiendo regresión lineal usando Introducción al análisis de regresión lineal de Montgomery, Peck y Vining . Me gustaría elegir un proyecto de análisis de datos.
Tengo la ingenua idea de que la regresión lineal es adecuada solo cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas y la variable de respuesta. Pero no muchas aplicaciones del mundo real parecen cumplir con este criterio. Sin embargo, la regresión lineal es tan frecuente.
En qué facetas de un proyecto estaría pensando un estadístico experimentado si estuviera en mi lugar, buscando una pregunta + datos que sean adecuados para la regresión lineal.
Respuestas:
Esta no es una comprensión correcta de lo que es "lineal" en "regresión lineal".
No se supone que la relación entre y las es de forma lineal (aunque es probable que todos los ejemplos elementales lo engañen).xy X
El "lineal" se refiere a que el modelo es lineal en los parámetros, y las relaciones no lineales entre y algo ciertamente se pueden modelar de esa manera.xy X
Hay un ejemplo con un solo predictor aquí , pero los modelos curvilíneas son más a menudo equipado de regresión múltiple, en donde pueden ocurrir varias funciones de un predictor (variable x, variable independiente) en la regresión, y esto permite que una gran cantidad de flexibilidad. Esto incluye la regresión polinómica, por ejemplo. Vea algunas discusiones y ejemplos aquí .
Sin embargo, si tenemos en cuenta el hecho de que los predictores pueden transformarse para ajustarse a las relaciones curvas, la linealidad en los parámetros también corresponde a la linealidad en esos predictores transformados.
Además, muchos problemas son cercanos a los lineales (al menos sobre el rango de valores considerados), o son tan ruidosos que no se puede discernir una curvatura leve, y una variedad de modelos simples para una relación creciente o decreciente podría funcionar: y en ese caso, una elección lineal puede ser adecuada y la más simple de ajustar y comprender.
El único momento en el que podría buscar un problema para aplicar la regresión sería cuando estoy tratando de encontrar un buen ejemplo para la enseñanza. Cuando realmente estoy en la posición de hacer un trabajo estadístico (en lugar de explicarlo o enseñarlo), elijo la metodología que se adapte a la pregunta de interés (y las características de los datos), en lugar de elegir los datos que se adapten al método.
Imagine un carpintero, por ejemplo. El carpintero no toma un porta-radios y dice "¿en qué puedo usar esto ?". Más bien, el carpintero tiene un problema que resolver, y al considerar las características del problema ("¿qué estoy tratando de hacer?" Y "¿qué tipo de madera estoy usando?", Etc.) pueden ser herramientas particulares Más relevante que otros. A veces, las herramientas disponibles pueden limitar o guiar las opciones (si no tiene un porta-radios, puede que tenga que arreglárselas con otra cosa ... o simplemente debe comprar un porta-radios).
Sin embargo, vamos a suponer que usted tiene un estadístico bolsillo ayudar a usted a cabo y que está tratando de encontrar un problema adecuado para la regresión lineal. Entonces podrían sugerirle que considere varios supuestos de regresión y cuándo importan. Mencionaré algunas cosas.
Si simplemente está interesado en ajustar una relación entre yy algunos x univariados (posiblemente transformados), la mayoría de los supuestos no necesariamente le importan (el teorema de Gauss-Markov puede ser de alguna relevancia). Estaría buscando un caso en el que piense que es aproximadamente lineal en para algún conocido - (es decir, supone que conocemos la forma funcional de relación que queremos) . Al escribir , necesitamos que sea al menos aproximadamente cierto.g ( x ) g x ∗ = xmi( yEl | sol( x ) ) sol( x ) sol X∗= x mi( yEl | X∗) = a + b x ∗
Si puede usar la regresión múltiple, incluso eso no es especialmente un problema importante, ya que uno puede usar (por ejemplo) splines de regresión cúbica para ajustarse a relaciones bastante generales.
Te sugiero que te mantengas alejado de los datos con el tiempo a menos que entiendas los problemas con la regresión espuria; atenerse a problemas de sección transversal.
Si está tratando con una sola , espero que quiera una continua en lugar de categórica .xX X
No querrá tener un error de medición en la menos que esté interesado en el condicionamiento de las expectativas en el valor medido .X
Si le interesan las pruebas de hipótesis, los intervalos de confianza o los intervalos de predicción, entonces pueden ser importantes más de los supuestos de regresión habituales (pero hay alternativas que no hacen esos supuestos, y en algunos casos, al menos algunos de los supuestos pueden no serlo). ser particularmente importante de todos modos).
Por lo tanto, una cosa que al menos tratar de tener en cuenta es cuáles son esas suposiciones que se hacen al derivar los procedimientos inferenciales que está utilizando y cuán importantes pueden ser en su problema particular (como un ejemplo, al realizar las pruebas de hipótesis habituales, la normalidad es una suposición, pero en grandes muestras esa suposición puede no ser importante; por otro lado, la suposición de la varianza constante puede ser un problema mayor).
Hay una serie de publicaciones que discuten los supuestos de regresión, y algunas publicaciones que discuten cuándo deben hacerse, y cuánto pueden importar, e incluso en qué orden considerarlas.
fuente
fuente
@Glen_b dio una muy buena respuesta pero, como se señaló, no llegó a terminar.
Entonces, en cuanto a tu última pregunta:
Un estadístico experimentado, creo, no haría esta pregunta. Como señala Glen, el problema dicta las herramientas a usar, no al revés.
Si intentara aprender una técnica como la regresión lineal, usaría ejemplos ya trabajados, pero que tenían datos reales, no datos inventados diseñados para facilitar las cosas. Un libro como Modelado de regresión por ejemplo puede proporcionar orientación.
Sin embargo, uno de los primeros pasos para observar un problema de regresión es decidir si la regresión lineal es, de hecho, adecuada.
fuente
Muchas respuestas se han referido a los supuestos que deben cumplirse: linealidad en los residuos, homogeneidad de varianza en el rango del predictor, no hay valores extremos que puedan influir en la línea de regresión y observaciones independientes. Los gráficos residuales son bastante fáciles de producir con la mayoría de los programas de regresión y algunos paquetes proporcionan algunos automáticamente (SAS).
Una persona habló sobre transformar y. Esta es una práctica común en algunas áreas, pero es una práctica que conduce a resultados sesgados y posiblemente no interpretables. El sesgo aparece cuando intenta volver a transformar los resultados en la métrica original. Es mejor cambiar a otro tipo de regresión que tenga un patrón residual que coincida con los supuestos de distribución del residual. Vea el capítulo 3 en la Introducción de Agresti al análisis de datos categóricos donde presenta el concepto de enlaces. Varios libros de texto de regresión también presentan el modelo lineal generalizado.
fuente