Después de buscar una aclaración sobre los coeficientes del modelo lineal aquí , tengo una pregunta de seguimiento relativa a los no significativos (valor p alto) para los coeficientes de los niveles de factores.
Ejemplo: si mi modelo lineal incluye un factor con 10 niveles, y solo 3 de esos niveles tienen valores de p significativos asociados con ellos, cuando uso el modelo para predecir Y, puedo elegir no incluir el término del coeficiente si el sujeto cae en uno de el nivel no significativo?
Más drásticamente, ¿sería incorrecto agrupar los 7 niveles no significativos en un nivel y volver a analizar?
Respuestas:
Si está colocando una variable predictora con múltiples niveles, o ingresa la variable o no, no puede elegir niveles. Es posible que desee reestructurar los niveles de su variable de predicción para disminuir el número de niveles (si eso tiene sentido en el contexto de su análisis). Sin embargo, no estoy seguro de si esto causaría algún tipo de invalidación estadística si niveles de colapso porque ves que no son significativos.
Además, solo una nota, usted dice que los pequeños valores son insignificantes. Supongo que quiso decir que el valor p pequeño es significativo, es decir: un valor p de .0001 es significativo y, por lo tanto, rechaza el valor nulo (suponiendo un nivel α de > .0001 ?).p p p α >.0001
fuente
La respuesta de @ Ellie es buena.
Si está colocando una variable con varios niveles, debe retener todos esos niveles en su análisis. Elegir y elegir según el nivel de significación sesgará sus resultados y hará cosas muy extrañas a su inferencia, incluso si por algún milagro sus estimaciones logran permanecer igual, ya que tendrá agujeros enormes en sus efectos estimados en diferentes niveles de la variable.
Consideraría ver sus estimaciones para cada nivel del predictor gráficamente. ¿Ves una tendencia a medida que subes de nivel o es errática?
En términos generales, también me opongo a las variables de recodificación basadas en pruebas estadísticas, o basadas únicamente en momentos estadísticos. Las divisiones en su variable deben basarse en algo más firme: puntos de corte lógicamente significativos, interés de campo en un punto de transición particular, etc.
fuente
Ampliando las dos buenas respuestas que ya ha recibido, veamos esto de manera sustancial. Suponga que su variable dependiente es (digamos) ingresos y su variable independiente es (digamos) etnia, con niveles, según las definiciones del censo (Blanco, Negro / Afr. Am., Am. Indio / Nativo de Alaska, Asiático, Nativo de Hawái / Isleño del Pacífico, otro y multirracial). Supongamos que lo codifica de forma ficticia con White como la categoría de referencia y obtiene
Si está haciendo este estudio en la ciudad de Nueva York, probablemente obtendrá muy pocos nativos hawaianos / isleños del Pacífico. Puede decidir incluirlos (si los hay) con los demás. Sin embargo, no puede usar la ecuación completa y simplemente no incluir ese coeficiente. Entonces la intercepción será incorrecta, y también lo serán los valores pronosticados para el ingreso.
Pero, ¿cómo combinar las categorías?
Como dijeron los demás, tiene que tener sentido .
fuente
Para dar una opinión diferente: ¿por qué no incluirlo como un efecto aleatorio? Eso debería penalizar esos niveles con un soporte débil y asegurarse de que el tamaño de su efecto sea mínimo. De esa forma, puede mantenerlos a todos sin preocuparse por obtener predicciones tontas.
Y sí, esto está más motivado desde una visión bayesiana de los efectos aleatorios que toda la vista "muestra de todos los niveles posibles" de los efectos aleatorios.
fuente
También me preguntaba si podría combinar categorías no significativas con la categoría de referencia. Las siguientes declaraciones en el libro "Minería de datos para Business Intelligence: conceptos, técnicas y aplicaciones en Microsoft Office Excel® con XLMiner®, segunda edición de Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimensión La sección de reducción) ( Resultado de búsqueda de Google ) parece apoyar la segunda oración de la respuesta de @ Ellie:
Sin embargo, planeo verificar con expertos en la materia si combinar las categorías tiene sentido lógico (como se implica en las respuestas / comentarios anteriores, por ejemplo, @Fomite, @gung).
fuente