¿Puedo ignorar los coeficientes para niveles no significativos de factores en un modelo lineal?

15

Después de buscar una aclaración sobre los coeficientes del modelo lineal aquí , tengo una pregunta de seguimiento relativa a los no significativos (valor p alto) para los coeficientes de los niveles de factores.

Ejemplo: si mi modelo lineal incluye un factor con 10 niveles, y solo 3 de esos niveles tienen valores de p significativos asociados con ellos, cuando uso el modelo para predecir Y, puedo elegir no incluir el término del coeficiente si el sujeto cae en uno de el nivel no significativo?

Más drásticamente, ¿sería incorrecto agrupar los 7 niveles no significativos en un nivel y volver a analizar?

Árboles4el bosque
fuente
2
Bueno, podría obtener una inferencia sesgada al hacer eso; por ejemplo, si está formando intervalos de predicción, las probabilidades de cobertura probablemente serían incorrectas para las personas en cualquiera de los 7 niveles insignificantes.
Macro
1
Aquí ha obtenido algunas buenas respuestas, pero también puede interesarle saber por qué no es apropiado descartar factores con valores p altos. Vale la pena señalar que esto es lógicamente equivalente a un procedimiento de selección de modelo automático, aunque lo esté haciendo usted mismo, en lugar de que la computadora lo haga por usted. Leer esta pregunta y las respuestas ofrecidas puede ayudar a comprender por qué estas cosas son ciertas.
gung - Restablece a Monica
1
Esta Q tiene un duplicado exacto de noviembre de 2012: stats.stackexchange.com/questions/18745/… . También hay un poco de información que invita a la reflexión.
rolando2
2
Esta es una pregunta tan importante y, sin embargo, no hay respuesta que respalde el argumento con la teoría. Tal como están las cosas, son solo opiniones. Ni siquiera el libro vinculado en una de las respuestas (cuya conclusión difiere de las otras respuestas) proporciona referencias. Tal como está esto, no confío en ninguno de ellos, y por lo tanto prefiero no hacer nada (es decir, mantener todas las categorías / factores).
luchonacho

Respuestas:

13

Si está colocando una variable predictora con múltiples niveles, o ingresa la variable o no, no puede elegir niveles. Es posible que desee reestructurar los niveles de su variable de predicción para disminuir el número de niveles (si eso tiene sentido en el contexto de su análisis). Sin embargo, no estoy seguro de si esto causaría algún tipo de invalidación estadística si niveles de colapso porque ves que no son significativos.

Además, solo una nota, usted dice que los pequeños valores son insignificantes. Supongo que quiso decir que el valor p pequeño es significativo, es decir: un valor p de .0001 es significativo y, por lo tanto, rechaza el valor nulo (suponiendo un nivel α de > .0001 ?). pppα>.0001

Ellie
fuente
(Se corrigió mi error tipográfico p). Buenos puntos aquí. Por lo tanto, los niveles de colapso, siempre que se base en alguna razón lógica y del mundo real justificable en el contexto del estudio (que también podría analizarlos a lo largo del intervalo de significación) es razonable, pero no solo agruparlos arbitrariamente en función de su importancia . Entendido.
Trees4theForest
15

La respuesta de @ Ellie es buena.

Si está colocando una variable con varios niveles, debe retener todos esos niveles en su análisis. Elegir y elegir según el nivel de significación sesgará sus resultados y hará cosas muy extrañas a su inferencia, incluso si por algún milagro sus estimaciones logran permanecer igual, ya que tendrá agujeros enormes en sus efectos estimados en diferentes niveles de la variable.

Consideraría ver sus estimaciones para cada nivel del predictor gráficamente. ¿Ves una tendencia a medida que subes de nivel o es errática?

En términos generales, también me opongo a las variables de recodificación basadas en pruebas estadísticas, o basadas únicamente en momentos estadísticos. Las divisiones en su variable deben basarse en algo más firme: puntos de corte lógicamente significativos, interés de campo en un punto de transición particular, etc.

Fomite
fuente
8

Ampliando las dos buenas respuestas que ya ha recibido, veamos esto de manera sustancial. Suponga que su variable dependiente es (digamos) ingresos y su variable independiente es (digamos) etnia, con niveles, según las definiciones del censo (Blanco, Negro / Afr. Am., Am. Indio / Nativo de Alaska, Asiático, Nativo de Hawái / Isleño del Pacífico, otro y multirracial). Supongamos que lo codifica de forma ficticia con White como la categoría de referencia y obtiene

Income=b0 0+si1siUNUN+si2UNyoUNnorte+si3 3UNS+si4 4norteHPAGyo+si5 5O+si6 6METROR

Si está haciendo este estudio en la ciudad de Nueva York, probablemente obtendrá muy pocos nativos hawaianos / isleños del Pacífico. Puede decidir incluirlos (si los hay) con los demás. Sin embargo, no puede usar la ecuación completa y simplemente no incluir ese coeficiente. Entonces la intercepción será incorrecta, y también lo serán los valores pronosticados para el ingreso.

Pero, ¿cómo combinar las categorías?

Como dijeron los demás, tiene que tener sentido .

Peter Flom - Restablece a Monica
fuente
4

Para dar una opinión diferente: ¿por qué no incluirlo como un efecto aleatorio? Eso debería penalizar esos niveles con un soporte débil y asegurarse de que el tamaño de su efecto sea mínimo. De esa forma, puede mantenerlos a todos sin preocuparse por obtener predicciones tontas.

Y sí, esto está más motivado desde una visión bayesiana de los efectos aleatorios que toda la vista "muestra de todos los niveles posibles" de los efectos aleatorios.

Shea Parkes
fuente
0

También me preguntaba si podría combinar categorías no significativas con la categoría de referencia. Las siguientes declaraciones en el libro "Minería de datos para Business Intelligence: conceptos, técnicas y aplicaciones en Microsoft Office Excel® con XLMiner®, segunda edición de Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimensión La sección de reducción) ( Resultado de búsqueda de Google ) parece apoyar la segunda oración de la respuesta de @ Ellie:

  • "Los modelos de regresión ajustados también se pueden usar para combinar categorías similares: las categorías que tienen coeficientes que no son estadísticamente significativos (es decir, tienen un valor p alto) se pueden combinar con la categoría de referencia porque su distinción de la categoría de referencia parece no tener efecto significativo en la variable de salida "
  • "Las categorías que tienen valores de coeficiente similares (y el mismo signo) a menudo se pueden combinar porque su efecto en la variable de salida es similar"

Sin embargo, planeo verificar con expertos en la materia si combinar las categorías tiene sentido lógico (como se implica en las respuestas / comentarios anteriores, por ejemplo, @Fomite, @gung).

usuario1420372
fuente
Esta respuesta se contradice con las otras respuestas aquí.
kjetil b halvorsen