¿Deben las covariables que no son estadísticamente significativas "mantenerse" al crear un modelo?

39

Tengo varias covariables en mi cálculo para un modelo, y no todas son estadísticamente significativas. ¿Debo eliminar los que no lo son?

Esta pregunta discute el fenómeno, pero no responde a mi pregunta: ¿Cómo interpretar el efecto no significativo de una covariable en ANCOVA?

Sin embargo, no hay nada en la respuesta a esa pregunta que sugiera que se eliminen las covariables no significativas, así que en este momento me siento inclinado a creer que deberían quedarse. Antes de leer esa respuesta, estaba pensando lo mismo desde una covariable todavía puede explicar parte de la varianza (y, por lo tanto, ayudar al modelo) sin explicar necesariamente una cantidad más allá de algún umbral (el umbral de significancia, que veo que no es aplicable a las covariables).

Hay otra pregunta en algún lugar de CV para la cual la respuesta parece implicar que las covariables deben mantenerse independientemente de su importancia, pero no está claro al respecto. (Quiero vincularme a esa pregunta, pero no pude rastrearla nuevamente en este momento).

Entonces ... ¿Las covariables que no se muestran como estadísticamente significativas deben mantenerse en el cálculo del modelo? (He editado esta pregunta para aclarar que las covariables nunca están en la salida del modelo por el cálculo de todos modos).

Para agregar complicaciones, ¿qué pasa si las covariables son estadísticamente significativas para algunos subconjuntos de datos (subconjuntos que deben procesarse por separado)? De forma predeterminada, mantendría una covariable de este tipo, de lo contrario, tendrían que usarse modelos diferentes o tendría una covariable estadísticamente significativa que falta en uno de los casos. Sin embargo, si también tiene una respuesta para este caso dividido, menciónelo.

A.M
fuente
66
En términos generales, diría que debe mantener variables que son teóricamente importantes o que han sido significativas en estudios anteriores, a pesar de que sus datos no respaldan su efecto. Dicho esto, para obtener una respuesta más específica, creo que debería agregar un par de líneas para explicar su modelo y su propósito (por ejemplo, identificar factores de riesgo, hacer predicciones, ...).
ocram
Yo diría que depende. Las pruebas son solo indicadores. Si cree que debería haber una pequeña dependencia, piense en mantener el modelo. Si también crees que la dependencia no debería estar ahí, entonces déjalo afuera.
Bene
Bien, ambos están diciendo que la falta de significación no dicta que una covariable se elimine de la consideración, por lo que ambos realmente respondieron mi pregunta. De hecho, debería reformular mi pregunta para indicar más claramente que lo que estoy preguntando es si la significación estadística de una covariable es una condición necesaria para mantenerla ("¿La falta de significación de una covariable significa que debe eliminarse ...") y Acepto cualquiera de sus comentarios como respuestas.
AM
Sin embargo, antes de hacer eso, me gustaría asegurarme de que estoy usando la terminología correcta. Originalmente escribí "mantenido en el modelo", pero eso no parecía correcto porque las covariables nunca aparecen en el modelo. Me decidí por "mantenerse en el cálculo del modelo " (y "eliminado de la consideración "), pero ¿hay una mejor manera de decir esto? ¿Cuál es el término correcto para lo que se mantiene o quita la covariable?
AM
3
Debería validar el rendimiento correcto de dichos procedimientos de selección. Otros han fallado.
Frank Harrell

Respuestas:

32

Ya has recibido varias buenas respuestas. Hay razones para mantener covariables y razones para descartar covariables. La significación estadística no debe ser un factor clave, en la gran mayoría de los casos.

  1. Las covariables pueden ser tan importantes que tienen que estar allí.
  2. El tamaño del efecto de una covariable puede ser alto, incluso si no es significativo.
  3. La covariable puede afectar otros aspectos del modelo.
  4. La covariable puede ser parte de cómo se redactó su hipótesis.

Si se encuentra en un modo muy exploratorio y la covariable no es importante en la literatura y el tamaño del efecto es pequeño y la covariable tiene poco efecto en su modelo y la covariable no estaba en su hipótesis, entonces probablemente podría eliminarla solo por simplicidad .

Peter Flom - Restablece a Monica
fuente
66
Una situación muy importante pero a menudo descuidada está cubierta por el n. ° 4 aquí, pero lo explicaré. A menudo, de hecho, por lo general, debe comparar sus resultados con los de trabajadores anteriores con datos similares. Si otros encontraron covariables particulares que vale la pena incluir en sus modelos, debería comparar sus resultados con los de ellos, independientemente de si sus covariables alcanzan niveles de significancia (convencionales). Tenga en cuenta que los casos aquí pueden variar de los modelos de informe que usted decide que no son (especialmente) buenos a los modelos de informe que usted decide que son buenos.
Nick Cox
1
Definitivamente me estaba inclinando hacia 'mantenerme' (y no estaba haciendo mucho del valor p para las covariables en primer lugar), pero su respuesta hace una lista de verificación muy buena (bueno ... dos) para que una minoría la saque. El tamaño del efecto es algo que no había considerado, y aunque consideré las hipótesis, me gustó mucho que lo incluyeras, por las razones que mencionó @NickCox y simplemente para desalentar la pesca.
AM
26

PAGS

Frank Harrell
fuente
10
¡La respuesta larga es "sí"! +1 y un LOL.
Peter Flom - Restablece a Monica
Si no son valores p, ¿cuáles son otras razones para eliminar los predictores? Usted menciona la interpretación de los intervalos de confianza, pero parece que un "rango interesante" sería cero, lo que significa que las personas interpretarían los IC de manera muy similar a los valores p (inclusión o exclusión de cero).
Mark White
1
¿Cuáles son las razones para eliminar predictores cuando esto distorsiona las propiedades estadísticas? No está claro en su pregunta y el "cero".
Frank Harrell
7

Una idea útil es que realmente no hay nada específico sobre una covariable estadísticamente hablando, ver, por ejemplo, Ayuda para escribir covariables en la fórmula de regresión . Por cierto, podría explicar por qué no hay una covariateetiqueta. En consecuencia, el material aquí y en otros lugares sobre términos no significativos en un modelo lineal son relevantes, al igual que los críticos bien conocidos de la regresión por pasos, incluso si ANCOVA no se menciona explícitamente.

En términos generales, es una mala idea seleccionar predictores basados ​​solo en la significación. Si por alguna razón no puede especificar el modelo de antemano, debe considerar otros enfoques, pero si planea incluirlos en primer lugar, recopilar los datos en consecuencia y no enfrenta problemas específicos (por ejemplo, colinealidad), simplemente consérvelos.

En cuanto a las razones para mantenerlos, las objeciones que se le ocurrieron me parecen sólidas. Otra razón sería que la eliminación de predictores no significativos sesga las inferencias basadas en el modelo. Otra forma más de ver todo esto es preguntar qué se ganaría al eliminar estas covariables después del hecho.

Gala
fuente
4

Realmente necesitamos más información sobre sus objetivos para responder esta pregunta. Las regresiones se usan para dos propósitos principales:

  1. Predicción
  2. Inferencia

La predicción es cuando su objetivo es poder adivinar los valores de la variable de resultado para las observaciones que no están en la muestra (aunque generalmente están dentro del rango de los datos de la muestra; de lo contrario, a veces usamos la palabra "pronóstico"). La predicción es útil para fines publicitarios, financieros, etc. Si solo está interesado en predecir alguna variable de resultado, tengo poco que ofrecerle.

La inferencia es donde está la diversión (incluso si no es donde está el dinero). Inferencia es donde está tratando de sacar conclusiones sobre parámetros específicos del modelo, generalmente para determinar un efecto causal de una variable sobre otra. A pesar de la percepción común, el análisis de regresión nunca es suficiente para la inferencia causal. Siempre debe saber más sobre el proceso de generación de datos para saber si su regresión captura el efecto causal. La cuestión clave para la inferencia causal de las regresiones es si la media condicional del error (condicional en los regresores) es cero. Esto no puede conocerse a partir de los valores p en los regresores. Es posible tener estimadores de regresión que sean imparciales o consistentes, pero eso requiere mucho más esfuerzo que simplemente incluir algunos controles obvios en la regresión y esperar que obtenga los importantes.Dominar las métricas: el camino de la causa al efecto y la econometría mayormente inofensiva ). Dominar las métricas es la lectura más fácil y es bastante barata, pero tenga en cuenta que no se trata de cómo hacer regresiones, sino de lo que significan. Para una buena cobertura de ejemplos de diseños de investigación observacional buenos y malos, recomiendo David Freedman (1991) "Statistical Models and Shoe Leather", Sociological Methodology , volumen 21 (una lectura corta y fácil con ejemplos fascinantes).

Aparte: la obsesión con la técnica estadística sobre el buen diseño de investigación en la mayoría de los cursos universitarios es un motivo pedagógico mío.

En segundo lugar, para motivar la importancia actual de este tema: la diferencia entre predicción e inferencia es la razón por la cual los grandes datos no son un sustituto de la ciencia.

Randy Cragun
fuente