Muchos libros de texto y documentos dicen que la intercepción no debe ser suprimida. Recientemente, utilicé un conjunto de datos de entrenamiento para construir un modelo de regresión lineal con o sin intercepción. Me sorprendió descubrir que el modelo sin intercepción predice mejor que eso con una intercepción en términos de rmse en un conjunto de datos de validación independiente. ¿Es la precisión de predicción una de las razones por las que debería usar modelos de intercepción cero?
8
Respuestas:
Observe cuidadosamente cómo se calcula la rmse u otra estadística al comparar modelos sin intersección con los modelos de intercepción. A veces, las suposiciones y los cálculos son diferentes entre los 2 modelos y uno puede encajar peor, pero se ve mejor porque se está dividiendo por algo mucho más grande.
Sin un ejemplo reproducible, es difícil saber qué puede estar contribuyendo.
fuente
No creo que deba elegir modelos simplemente porque funcionan mejor en una muestra en particular, aunque es bueno que haya utilizado una muestra de capacitación y validación.
Más bien, mire lo que dicen las modelos sobre su situación. En algunos casos, un modelo de intersección cero tiene sentido. Si el DV debería ser 0 cuando todos los IV son 0, entonces use un modelo de intercepción cero. De lo contrario, no lo hagas.
El conocimiento sustantivo debe guiar las estadísticas, no al revés
fuente
Un modelo de no intercepción puede tener sentido si se cumplen dos condiciones. Primero, debe haber una expectativa razonable de conocimiento de la materia para que la intersección sea cero. En segundo lugar, debe haber una expectativa razonable de conocimiento de la materia para que la línea de regresión siga siendo una línea recta a medida que se acerca a cero. Incluso si se cumplen ambas condiciones, es aconsejable realizar un análisis con un término de intercepción y verificar que la intercepción no sea significativamente diferente de cero.
(Supongo que estás hablando de una Y continua y una X continua).
fuente
Esto sería comprensible si la intercepción que obtuviste fuera simplemente ruido, no sig. diferente de cero (¿Tengo razón en que los coeficientes de regresión estandarizados fueron casi los mismos en ambos modelos?) Si es así, no creo que deba generalizar a partir de este ejemplo. Cuando las intersecciones son sig. y sustancial, agregan algo significativo a la precisión predictiva.
fuente
En regresión lineal, estás ajustando:
Encajasβ datos de entrenamiento dados (X,Y)
Supongamos que sueltas el β0 y ajustar el modelo, aparecerá el error en el ajuste:
ser más grande que si lo incluyeras? En todos los casos (no degenerados) puede probar que el error será el mismo o menor (en los datos de entrenamiento) cuando incluyaβ0 dado que el modelo es libre de usar este parámetro para reducir el error si está presente y ayuda, y lo establecerá en cero si no ayuda. Además, suponga que agregó una constante grande a y (suponga que su salida debe ser+10000 que en sus datos de entrenamiento originales), y vuelva a instalar el modelo, luego β0 claramente se vuelve muy importante.
Quizás te refieres a los modelos regularizados cuando dices "suprimido". Los métodos L1 y L2 regularizados prefieren mantener los coeficientes cerca de cero (y ya debería haber normalizado la media y la varianzaX de antemano para que este paso sea sensato. En la regularización, tiene la opción de incluir el término de intercepción (si preferimos también tener un pequeñoβ0 ?) Nuevamente, en la mayoría de los casos (¿todos los casos?), Es mejor no regularizarβ0 , ya que es poco probable que reduzca el sobreajuste y reduzca el espacio de las funciones representables (al excluir aquellas con funciones altas β0 ) que conduce a un mayor error.
Nota al margen: la regresión logística de scikit regulariza la intercepción por defecto. Alguien sabe por qué: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? No creo que sea una buena idea .
fuente