Actualmente estoy trabajando para construir un modelo usando una regresión lineal múltiple. Después de jugar con mi modelo, no estoy seguro de cómo determinar mejor qué variables mantener y cuáles eliminar.
Mi modelo comenzó con 10 predictores para el DV. Al usar los 10 predictores, cuatro se consideraron significativos. Si elimino solo algunos de los predictores obviamente incorrectos, algunos de mis predictores que inicialmente no eran significativos se vuelven significativos. Lo que me lleva a mi pregunta: ¿cómo se determina qué predictores incluir en su modelo? Me pareció que debería ejecutar el modelo una vez con todos los predictores, eliminar aquellos que no son significativos y luego volver a ejecutarlos. Pero si eliminar solo algunos de esos predictores hace que otros sean significativos, me pregunto si estoy tomando el enfoque incorrecto de todo esto.
Creo que este hilo es similar a mi pregunta, pero no estoy seguro de estar interpretando la discusión correctamente. Quizás este sea más un tema de diseño experimental, pero quizás alguien tenga alguna experiencia que pueda compartir.
Respuestas:
Según su reacción a mi comentario:
Estás buscando predicción. Por lo tanto, no debe confiar realmente en la (in) importancia de los coeficientes. Serías mejor
Escriba cada modelo de interés : aquí yace una buena trampa. Con 10 predictores potenciales, esa es una gran cantidad de modelos potenciales. Si tiene el tiempo o los procesadores para esto (o si sus datos son lo suficientemente pequeños como para que los modelos se ajusten y evalúen lo suficientemente rápido): tenga una pelota. De lo contrario, puede hacerlo mediante suposiciones educadas, modelado hacia adelante o hacia atrás (pero usando el criterio en lugar de la importancia), o mejor aún: use algún algoritmo que elija un conjunto razonable de modelos. Un algoritmo que hace esto es la regresión penalizada, en particular la regresión Lasso. Si está utilizando R, simplemente conecte el paquete glmnet y estará listo para comenzar.
fuente
No hay una respuesta simple a esto. Cuando elimina algunas de las variables explicativas no significativas, otras que están correlacionadas con ellas pueden volverse significativas. No hay nada de malo en esto, pero hace que la selección del modelo sea al menos en parte arte más que ciencia. Esta es la razón por la cual los experimentos apuntan a mantener las variables explicativas ortogonales entre sí, para evitar este problema.
Tradicionalmente, los analistas sumaban y restaban paso a paso las variables al modelo una a la vez (similar a lo que ha hecho) y las prueban individualmente o en pequeños grupos con pruebas t o F. El problema con esto es que puede perderse alguna combinación de variables para restar (o agregar) donde su efecto combinado (o no efecto) está oculto por la colinealidad.
Con el poder de cómputo moderno, es factible ajustar todas las combinaciones posibles de variables explicativas 2 ^ 10 = 1024 y elegir el mejor modelo por uno de varios criterios posibles, por ejemplo, AIC, BIC o poder predictivo (por ejemplo, la capacidad de predecir los valores de un subconjunto de prueba de los datos que ha separado del conjunto que utiliza para ajustar su modelo). Sin embargo, si va a probar (implícita o explícitamente) 1024 modelos, deberá repensar sus valores p desde el enfoque clásico: trate con precaución ...
fuente
Si solo está interesado en el rendimiento predictivo, entonces probablemente sea mejor usar todas las características y usar la regresión de cresta para evitar un ajuste excesivo de la muestra de entrenamiento. Este es esencialmente el consejo dado en el apéndice de la monografía de Millar sobre "selección de subconjuntos en regresión" , por lo que viene con un pedigrí razonable.
La razón de esto es que si elige un subconjunto basado en una estimación de rendimiento basada en una muestra fija de datos (por ejemplo, AIC, BIC, validación cruzada, etc.), el criterio de selección tendrá una variación finita y, por lo tanto, es posible sobrepasar el criterio de selección en sí. En otras palabras, para comenzar a medida que minimiza el criterio de selección, el rendimiento de la generalización mejorará, sin embargo, llegará un punto en el que cuanto más reduzca el criterio de selección, peor será la generalización. Si no tiene suerte, puede terminar fácilmente con un modelo de regresión que funciona peor que el que comenzó (es decir, un modelo con todos los atributos).
Esto es especialmente probable cuando el conjunto de datos es pequeño (por lo que el criterio de selección tiene una alta varianza) y cuando hay muchas opciones posibles de modelo (por ejemplo, la elección de combinaciones de características). La regularización parece ser menos propensa a un ajuste excesivo, ya que es un parámetro escalar que debe ajustarse y esto proporciona una visión más restringida de la complejidad del modelo, es decir, menos grados efectivos de libertad con los que sobrepasar el criterio de selección. .
fuente
Utilizar la biblioteca saltos. Cuando traza las variables, el eje y muestra R ^ 2 ajustado. Miras donde las cajas son negras en el R ^ 2 más alto. Esto mostrará las variables que debe usar para su regresión lineal múltiple.
ejemplo vino a continuación:
fuente
leaps
calcula explícitamente los 'mejores subconjuntos', aunque no le aconseja cómo seleccionar entre subconjuntos de diferente tamaño. (Eso es un asunto entre usted y su clero estadístico.)leaps
Curiosamente , se basa en el "código FORTRAN77 de Alan Miller [...] que se describe con más detalle en su libro 'Subset Selection in Regression'", un libro que Dikran menciona en otra respuesta a esta pregunta :-)También puede usar la función de paso en el criterio de información de Akaike. Ejemplo a continuación. https://en.wikipedia.org/wiki/Akaike_information_criterion
fuente
¿Por qué no hacer análisis de correlación Primero y luego incluir en la regresión solo aquellos que se correlacionan con Dv?
fuente
Mi asesor ofreció otra forma posible de hacerlo. Ejecute todas sus variables una vez y luego elimine las que no cumplan con algún umbral (establecemos nuestro umbral como p <.25). Continúe iterando de esa manera hasta que todas las variables caigan por debajo de ese valor de .25, luego informe aquellos valores que sean significativos.
fuente