37

Soy un estudiante de economía con algo de experiencia con econometría y R. Me gustaría saber si alguna vez hay una situación en la que deberíamos incluir una variable en una regresión a pesar de que no sea estadísticamente significativa.

statistical-significance feature-selection EconJohn
fuente

1

En la investigación médica, lo incluiría si involucra interacciones cualitativas. Vea el trabajo de Lacey Gunter al que he hecho referencia aquí antes. También el libro de Chakraborty y Moodie publicado por Springer en 2013. El título es Métodos estadísticos para regímenes de tratamiento dinámico: aprendizaje por refuerzo, inferencia causal y medicina personalizada.

Michael R. Chernick

11

Considere también que la significación estadística es completamente arbitraria. ¿Qué es significativo? 0.05? 0.1? 0.001? Si la base teórica existe para incluir un predictor, esa es razón suficiente para mantenerlo.

Ashe

2

Cuando dice "no estadísticamente significativo", se da cuenta de que está en el nivel de confianza del 5%, ¿cuál es una elección arbitraria? (Y cuantas más variables haya, incurrirá en el Problema de Pruebas Múltiples).

smci

1

@smci 0.05 = 5% de nivel de significancia corresponde al 95% de nivel de confianza, razón suficiente para evitar mezclar los términos en la misma oración. Como existen procedimientos significativos sin un intervalo de confianza a la vista, generalmente es más fácil usar el término que sea más pertinente. Las excepciones son cuando está explicando el enlace en un nivel introductorio.

Nick Cox

30

¡Sí!

Que un coeficiente sea estadísticamente indistinguible de cero no implica que el coeficiente sea realmente cero, que el coeficiente sea irrelevante. Que un efecto no pase algún límite arbitrario para la significación estadística no implica que uno no deba intentar controlarlo.

En términos generales, el problema en cuestión y el diseño de su investigación deben guiar qué incluir como regresores.

Algunos ejemplos rápidos:

Y no tome esto como una lista exhaustiva. No es difícil encontrar toneladas más ...

1. Efectos fijos

Una situación en la que esto ocurre a menudo es una regresión con efectos fijos .

Digamos que tiene datos de panel y desea estimar en el modelo: $b$

y_{yo t} = si X_{yo t} + {tu}_{yo} + ϵ_{yo t}

$y_{it} = b x_{it} + u_i + \epsilon_{it}$

Estimar este modelo con mínimos cuadrados ordinarios donde es tratado como efectos fijos es equivalente a ejecutar mínimos cuadrados ordinarios con una variable indicadora para cada individuo . $u_i$ $i$

De todos modos, el punto es que las variables (es decir, los coeficientes en las variables indicadoras) a menudo se estiman mal. Cualquier efectos fijos individuales es a menudo estadísticamente insignificante. Pero aún incluye todas las variables indicadoras en la regresión si tiene en cuenta los efectos fijos. $u_i$ $u_i$

(Tenga en cuenta que la mayoría de los paquetes de estadísticas ni siquiera le darán los errores estándar para los efectos fijos individuales cuando utilice los métodos integrados. Realmente no le importa la importancia de los efectos fijos individuales. Probablemente le importe su importancia colectiva .)

2. Funciones que van juntas ...

(a) Ajuste de curva polinómica (punta de sombrero @NickCox en los comentarios)

Si está ajustando un polinomio de grado a alguna curva, casi siempre incluye términos de polinomios de orden inferior. $k$

Por ejemplo, si estuviera ajustando un polinomio de segundo orden, ejecutaría:

y_{yo} = {si}_{0 0} + {si}_{1} X_{yo} + {si}_{2} X_{yo}^{2} + ϵ_{yo}

$y_i = b_0 + b_1 x_i + b_2 x_i^2 + \epsilon_i$

Por lo general, sería bastante extraño forzar a y, en su lugar, ejecutar $b_1 = 0$

y_{yo} = {si}_{0 0} + {si}_{2} X_{yo}^{2} + ϵ_{yo}

$y_i = b_0 + b_2 x_i^2 + \epsilon_i$

pero los estudiantes de mecánica newtoniana podrán imaginar excepciones.

(b) Modelos AR (p):

Digamos que estaba estimando un modelo AR (p), también incluiría los términos de orden inferior. Por ejemplo, para un AR (2) ejecutarías:

y_{t} = {si}_{0 0} + {si}_{1} y_{t - 1} + {si}_{2} y_{t - 2} + ϵ_{t}

$y_t = b_0 + b_1 y_{t-1} + b_2 y_{t-2} + \epsilon_t$

Y sería extraño ejecutar:

y_{t} = {si}_{0 0} + {si}_{2} y_{t - 2} + ϵ_{t}

$y_t = b_0 + b_2 y_{t-2} + \epsilon_t$

(c) Funciones trigonométricas

Como @NickCox menciona, los términos y manera similar tienden a ir juntos. Para obtener más información al respecto, consulte, por ejemplo, este documento . $\cos$ $\sin$

Mas ampliamente...

Desea incluir variables del lado derecho cuando haya buenas razones teóricas para hacerlo.

Y como otras respuestas aquí y en StackExchange discuten, la selección de variables paso a paso puede crear numerosos problemas estadísticos.

También es importante distinguir entre:

un coeficiente estadísticamente indistinguible de cero con un pequeño error estándar.
un coeficiente estadísticamente indistinguible de cero con un gran error estándar.

En el último caso, es problemático argumentar que el coeficiente no importa. Simplemente puede ser mal medido.

Matthew Gunn
fuente

u_{i}

$u_i$

b

$b$

u_{i}

$u_i$

u_{i}

$u_i$

u_{i}

$u_i$

55

Algunas respuestas muy buenas que, sin embargo, ya se superponen demasiado, por lo que limitaré mis ejemplos a un comentario aquí. Ajuste polinómico : más comúnmente, un cuadrático casi siempre debe ajustarse mediante un doble acto de términos lineales y cuadrados. Incluso si solo un término es significativo a niveles convencionales, su efecto conjunto es clave. Predictores trigonométricos De manera similar, el seno y el coseno generalmente se unen, incluso si uno no califica en los niveles convencionales. Los actos dobles deben ajustarse como tales.

Nick Cox

2

@NickCox Como esta es una wiki de la comunidad y su punto es directamente relevante para el que aparece aquí, creo que su comentario merecería ser editado en la respuesta en un momento apropiado. Es demasiado importante seguir siendo un simple comentario, en mi opinión, aunque creo que tienes razón en que no sería mejor como una respuesta independiente

Silverfish

@Silverfish Matthew es bienvenido a copiarlo. Sin embargo, me parece un poco presuntuoso editarlo.

Nick Cox

1

@ NickCox Jaja, no me importa. :) ¡Agregué tus sugerencias y no dudes en editar!

Matthew Gunn el

14

Sí hay. Cualquier variable que pueda correlacionarse con su variable de respuesta de manera significativa, incluso a un nivel estadísticamente insignificante, podría confundir su regresión si no se incluye. Esto se conoce como subespecificación y conduce a estimaciones de parámetros que no son tan precisas como podrían ser de otro modo.

https://onlinecourses.science.psu.edu/stat501/node/328

De lo anterior:

Un modelo de regresión está subespecificado (resultado 2) si a la ecuación de regresión le faltan una o más variables predictoras importantes. Esta situación es quizás el peor de los casos, porque un modelo poco especificado produce coeficientes de regresión sesgados y predicciones sesgadas de la respuesta. Es decir, al usar el modelo, subestimaríamos o sobreestimaríamos constantemente las pendientes de la población y las medias de la población. Para empeorar las cosas, el error cuadrático medio MSE tiende a sobreestimar σ², lo que genera intervalos de confianza más amplios de lo que debería.

doble problema
fuente

44

Eso no es del todo cierto. Para ser una variable de confusión, debe causar la variable explicada y la (s) variable (s) explicativa (s) de interés. Si las variables explicativas de interés causa la variable, y que influye en el resultado, entonces es una variable interviniente, y usted debe no controlar por él (a menos que desee para descomponer el efecto total).

Maarten Buis

1

Esta es una discusión muy inadecuada sobre el tema del control de los factores de confusión. La correlación con el resultado no es una condición suficiente para la confusión y puede conducir a una especificación errónea de los modelos causales al controlar a los mediadores: esto lleva a falacias como "dejar de fumar no reduce el riesgo de enfermedad cardiovascular después de controlar el calcio arterial coronario (CAC)". El CAC es la forma principal en que fumar le causa enfermedades cardíacas. Ver Causality de Pearl, 2ª ed, capítulo 3, sección 3.

AdamO

Siéntase libre de editar. No pensé que estaba buscando ese tipo de profundidad en la respuesta, disculpas si mi brevedad conducía a una gran inexactitud.

doubletrouble

11

Por lo general, no incluye ni excluye variables para la regresión lineal debido a su importancia. Los incluye porque supone que las variables seleccionadas son predictores (buenos) de los criterios de regresión. En otras palabras, la selección del predictor se basa en la teoría.

La insignificancia estadística en la regresión lineal puede significar dos cosas (de las cuales sé):

Los predictores insignificantes no están relacionados con los criterios. Excluirlos, pero tenga en cuenta que la insignificancia no prueba que no están relacionados. Comprueba tu teoría.
Los predictores son insignificantes porque pueden expresarse en función de otros predictores. El conjunto de predictores se denomina multicolineal. Esto no hace que los predictores sean "malos" en ningún sentido sino redundantes.

Una razón válida para excluir predictores insignificantes es que está buscando el subconjunto más pequeño de predictores que expliquen la varianza de los criterios o la mayor parte. Si lo has encontrado revisa tu teoría.

Wolfgang
fuente

[P] redictors de los criterios de regresión ? Es posible que desee reformular esto.

Richard Hardy

8

En econometría, esto sucede de izquierda a derecha. Por ejemplo, si está utilizando dummies trimestrales de estacionalidad Q2, Q3 y Q4, sucede a menudo que, como grupo, son significativos, pero algunos de ellos no lo son individualmente. En este caso, generalmente los guarda todos.

$y\sim x*z$ $z$ $x*z$

ACTUALIZACIÓN: Otro ejemplo común es el pronóstico. La econometría generalmente se enseña desde la perspectiva de inferencia en los departamentos de economía. Desde el punto de vista de la inferencia, se presta mucha atención a los valores p y al significado, porque está tratando de comprender qué causa qué, etc. En el pronóstico, no hay mucho énfasis en estas cosas, porque lo único que le importa es qué tan bien el modelo puede pronosticar la variable de interés.

Esto es similar a las aplicaciones de aprendizaje automático, por cierto, que están llegando a la economía recientemente. Puede tener un modelo con todas las variables significativas que no pronostique bien. En ML a menudo se asocia con el llamado "sobre ajuste". Obviamente, hay muy poco uso de ese modelo en la predicción.

Aksakal
fuente

1

Esto parece un poco exagerado en algunos puntos. Por ejemplo, es evidente incluso para mí, como no economista, solo a partir de los libros de texto, que el pronóstico se ha enseñado ampliamente a los economistas durante al menos algunas décadas. Si ha habido un aumento "reciente" (¿significa exactamente?) Es un punto más sutil que dejo a los de adentro.

Nick Cox

@NickCox, de acuerdo, sonaba como si no hubiera pronósticos en absoluto en los planes de estudio, lo cual no es cierto.

Aksakal

7

Estás haciendo dos preguntas diferentes:

¿Cuándo no importa la significación estadística?
¿Cuándo deberíamos incluir una variable en una regresión a pesar de que no sea estadísticamente significativa?

Editar: esto era cierto sobre la publicación original, pero podría no serlo después de las ediciones.

Con respecto al primer trimestre, creo que está al borde de ser demasiado amplio. Hay muchas respuestas posibles, algunas ya proporcionadas. Un ejemplo más es cuando se construyen modelos para el pronóstico (consulte la fuente citada a continuación para obtener una explicación).

Con respecto al segundo trimestre, la significación estadística no es un criterio sólido para la construcción de modelos. Rob J. Hyndman escribe lo siguiente en su blog "Pruebas estadísticas para la selección de variables" :

La significación estadística no suele ser una buena base para determinar si una variable debe incluirse en un modelo, a pesar del hecho de que muchas personas que deberían conocerlas mejor las usan exactamente para este propósito. <...> Las pruebas estadísticas se diseñaron para probar hipótesis, no seleccionar variables.

También tenga en cuenta que a menudo puede encontrar algunas variables que son estadísticamente significativas por pura casualidad (la posibilidad está controlada por su elección del nivel de significancia). La observación de que una variable es estadísticamente significativa no es suficiente para concluir que la variable pertenece al modelo.

Richard Hardy
fuente

4

Agregaré otro "sí". Siempre me han enseñado, y he tratado de transmitirlo, que la consideración principal en la elección de covariables es el conocimiento del dominio, no las estadísticas. En bioestadística, por ejemplo, si estoy modelando algún resultado de salud en individuos, no importa lo que diga la regresión, necesitarás algunos argumentos muy buenos para que no incluya la edad, la raza y el sexo en el modelo.

También depende del propósito de su modelo. Si el propósito es obtener una mejor comprensión de qué factores están más asociados con su resultado, entonces construir un modelo parsimonioso tiene algunas virtudes. Si te preocupa la predicción, y no tanto la comprensión, entonces eliminar las covariables puede ser una preocupación menor.

(Finalmente, si planea utilizar estadísticas para la selección de variables, consulte lo que Frank Harrell tiene que decir sobre el tema: http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ , y su libro Estrategias de modelado de regresión . Brevemente, cuando ha utilizado estrategias basadas en estadísticas escalonadas o similares para elegir los mejores predictores, entonces cualquier prueba de "¿son estos buenos predictores?" está terriblemente sesgada, por supuesto que " Son buenos predictores, los ha elegido sobre esa base, por lo que los valores de p para esos predictores son falsamente bajos).

eac2222
fuente

1

@EconJohn Y las estadísticas del modelo F ,

R^{2}

$R^{2}$ s, y las estimaciones de efecto son falsamente altas ... y modelos seleccionados por etapas con la misma probabilidad de retener predictores verdaderos y predictores falsos, y de igual probabilidad de eliminar predictores verdaderos y predictores falsos.

Alexis

4

Lo único que el resultado de la "insignificancia estadística" realmente dice es que, en el nivel seleccionado de error de Tipo I, ni siquiera podemos decir si el efecto del regresor en la variable dependiente es positivo o negativo (ver esta publicación).

Entonces, si mantenemos este regresor, cualquier discusión sobre su propio efecto sobre la variable dependiente no tiene evidencia estadística que lo respalde.

Pero esta falla de estimación no dice que el regresor no pertenece a la relación estructural, solo dice que con el conjunto de datos específico no pudimos determinar con cierta certeza el signo de su coeficiente.

Entonces, en principio, si hay argumentos teóricos que respalden su presencia, se debe mantener el regresor.

Otras respuestas aquí proporcionaron modelos / situaciones específicas para los cuales dichos regresores se mantienen en la especificación, por ejemplo, la respuesta menciona el modelo de datos del panel de efectos fijos.

Alecos Papadopoulos
fuente

¿Por qué arrastrar el "nivel de confianza" a una discusión de importancia? Frecuentemente leo monstruosidades en textos y documentos pobres como "significativo al 99% de nivel de confianza". Hay una relación entre las ideas, seguramente, pero no necesita esta redacción (que a nivel elemental confunde tanto como explica).

Nick Cox

@Nick Cox Tienes un punto. Lo cambié a "Error tipo I".

Alecos Papadopoulos

1

Puede incluir una variable de particular interés si es el foco de la investigación, incluso si no es estadísticamente significativa. Además, en bioestadística, la significación clínica es a menudo diferente de la significación estadística.

Scott Jackson
fuente

¿Cuándo se debe incluir una variable en una regresión a pesar de que no sea estadísticamente significativa?

Respuestas:

Algunos ejemplos rápidos:

1. Efectos fijos

2. Funciones que van juntas ...

(a) Ajuste de curva polinómica (punta de sombrero @NickCox en los comentarios)

(b) Modelos AR (p):

(c) Funciones trigonométricas

Mas ampliamente...