Tengo varias covariables en mi cálculo para un modelo, y no todas son estadísticamente significativas. ¿Debo eliminar los que no lo son?
Esta pregunta discute el fenómeno, pero no responde a mi pregunta: ¿Cómo interpretar el efecto no significativo de una covariable en ANCOVA?
Sin embargo, no hay nada en la respuesta a esa pregunta que sugiera que se eliminen las covariables no significativas, así que en este momento me siento inclinado a creer que deberían quedarse. Antes de leer esa respuesta, estaba pensando lo mismo desde una covariable todavía puede explicar parte de la varianza (y, por lo tanto, ayudar al modelo) sin explicar necesariamente una cantidad más allá de algún umbral (el umbral de significancia, que veo que no es aplicable a las covariables).
Hay otra pregunta en algún lugar de CV para la cual la respuesta parece implicar que las covariables deben mantenerse independientemente de su importancia, pero no está claro al respecto. (Quiero vincularme a esa pregunta, pero no pude rastrearla nuevamente en este momento).
Entonces ... ¿Las covariables que no se muestran como estadísticamente significativas deben mantenerse en el cálculo del modelo? (He editado esta pregunta para aclarar que las covariables nunca están en la salida del modelo por el cálculo de todos modos).
Para agregar complicaciones, ¿qué pasa si las covariables son estadísticamente significativas para algunos subconjuntos de datos (subconjuntos que deben procesarse por separado)? De forma predeterminada, mantendría una covariable de este tipo, de lo contrario, tendrían que usarse modelos diferentes o tendría una covariable estadísticamente significativa que falta en uno de los casos. Sin embargo, si también tiene una respuesta para este caso dividido, menciónelo.
Respuestas:
Ya has recibido varias buenas respuestas. Hay razones para mantener covariables y razones para descartar covariables. La significación estadística no debe ser un factor clave, en la gran mayoría de los casos.
Si se encuentra en un modo muy exploratorio y la covariable no es importante en la literatura y el tamaño del efecto es pequeño y la covariable tiene poco efecto en su modelo y la covariable no estaba en su hipótesis, entonces probablemente podría eliminarla solo por simplicidad .
fuente
fuente
Una idea útil es que realmente no hay nada específico sobre una covariable estadísticamente hablando, ver, por ejemplo, Ayuda para escribir covariables en la fórmula de regresión . Por cierto, podría explicar por qué no hay una
covariate
etiqueta. En consecuencia, el material aquí y en otros lugares sobre términos no significativos en un modelo lineal son relevantes, al igual que los críticos bien conocidos de la regresión por pasos, incluso si ANCOVA no se menciona explícitamente.En términos generales, es una mala idea seleccionar predictores basados solo en la significación. Si por alguna razón no puede especificar el modelo de antemano, debe considerar otros enfoques, pero si planea incluirlos en primer lugar, recopilar los datos en consecuencia y no enfrenta problemas específicos (por ejemplo, colinealidad), simplemente consérvelos.
En cuanto a las razones para mantenerlos, las objeciones que se le ocurrieron me parecen sólidas. Otra razón sería que la eliminación de predictores no significativos sesga las inferencias basadas en el modelo. Otra forma más de ver todo esto es preguntar qué se ganaría al eliminar estas covariables después del hecho.
fuente
Realmente necesitamos más información sobre sus objetivos para responder esta pregunta. Las regresiones se usan para dos propósitos principales:
La predicción es cuando su objetivo es poder adivinar los valores de la variable de resultado para las observaciones que no están en la muestra (aunque generalmente están dentro del rango de los datos de la muestra; de lo contrario, a veces usamos la palabra "pronóstico"). La predicción es útil para fines publicitarios, financieros, etc. Si solo está interesado en predecir alguna variable de resultado, tengo poco que ofrecerle.
La inferencia es donde está la diversión (incluso si no es donde está el dinero). Inferencia es donde está tratando de sacar conclusiones sobre parámetros específicos del modelo, generalmente para determinar un efecto causal de una variable sobre otra. A pesar de la percepción común, el análisis de regresión nunca es suficiente para la inferencia causal. Siempre debe saber más sobre el proceso de generación de datos para saber si su regresión captura el efecto causal. La cuestión clave para la inferencia causal de las regresiones es si la media condicional del error (condicional en los regresores) es cero. Esto no puede conocerse a partir de los valores p en los regresores. Es posible tener estimadores de regresión que sean imparciales o consistentes, pero eso requiere mucho más esfuerzo que simplemente incluir algunos controles obvios en la regresión y esperar que obtenga los importantes.Dominar las métricas: el camino de la causa al efecto y la econometría mayormente inofensiva ). Dominar las métricas es la lectura más fácil y es bastante barata, pero tenga en cuenta que no se trata de cómo hacer regresiones, sino de lo que significan. Para una buena cobertura de ejemplos de diseños de investigación observacional buenos y malos, recomiendo David Freedman (1991) "Statistical Models and Shoe Leather", Sociological Methodology , volumen 21 (una lectura corta y fácil con ejemplos fascinantes).
Aparte: la obsesión con la técnica estadística sobre el buen diseño de investigación en la mayoría de los cursos universitarios es un motivo pedagógico mío.
En segundo lugar, para motivar la importancia actual de este tema: la diferencia entre predicción e inferencia es la razón por la cual los grandes datos no son un sustituto de la ciencia.
fuente