Digamos que estoy construyendo un modelo de regresión logística donde la variable dependiente es binaria y puede tomar los valores. o . Deje que las variables independientes sean - existen variables independientes. Digamos por elEn la variable independiente, el análisis bivariado muestra una tendencia en forma de U, es decir, si agrupo dentro cada uno de ellos contiene aproximadamente el mismo número de observaciones y calculo la 'tasa mala' para cada contenedor - # observaciones donde y = 0 / observaciones totales en cada contenedor - luego obtengo una curva en forma de U.
Mis preguntas son:
- ¿Puedo usar directamente como entrada al estimar los parámetros beta? ¿Se violan algunos supuestos estadísticos que podrían causar un error significativo en la estimación de los parámetros?
- ¿Es necesario 'linealizar' esta variable a través de una transformación (log, cuadrado, producto consigo mismo, etc.)?
regression
estimation
logistic
sas
Mozan Sykol
fuente
fuente
Respuestas:
Debería utilizar una formulación flexible que capture la no linealidad automáticamente, por ejemplo, alguna versión de un modelo aditivo generalizado . La elección de un pobre es un polinomioxk , x2k , ..., xpkk , pero tales polinomios producen sobrevuelos terribles en los extremos del rango de sus respectivas variables. Una formulación mucho mejor sería utilizar splines B (cúbicos) (vea una nota de introducción aleatoria de la primera página de Google aquí , y un buen libro, aquí ). Las estrías B son una secuencia de jorobas locales:
http://ars.sciencedirect.com/content/image/1-s2.0-S0169743911002292-gr2.jpg
La altura de las jorobas se determina a partir de su regresión (lineal, logística, otra GLM), ya que la función que está ajustando es simplemente
para la forma funcional especificada de su jorobaB(⋅) . Con mucho, la versión más popular es una estría cúbica lisa en forma de campana:
En el lado de la implementación, todo lo que necesita hacer es configurar 3-5-10, cualquier número de nudosxk sería razonable para su aplicación y crearía las variables 3-5-10 correspondientes en el conjunto de datos con los valores de B(x−xkhk) . Por lo general, se elige una cuadrícula de valores simple, conhk siendo el doble del tamaño de malla de la cuadrícula, de modo que en cada punto, hay dos splines B superpuestas, como en el diagrama anterior.
fuente
Al igual que la regresión lineal, se requiere que la regresión logística y los modelos lineales más generalizados sean lineales en los parámetros, pero no necesariamente en las covariables. Entonces, se pueden usar términos polinómicos como un cuadrático que Macro sugiere. Este es un malentendido común del término lineal en los modelos lineales generalizados. Los modelos no lineales son modelos que no son lineales en los parámetros. Si el modelo es lineal en los parámetros y contiene términos de ruido aditivo que son IID, el modelo es lineal incluso si hay covariables como X2 log X o exp (X). Como ahora leo la pregunta, parece estar editada. Mi respuesta específica sería sí a 1 y no necesaria a 2.
fuente
Otra alternativa viable que emplea el taller de modelaje para el que trabajo habitualmente es agrupar las variables independientes continuas y sustituir la 'tasa mala'. Esto obliga a una relación lineal.
fuente
disco
paquete. Creé mi propio algoritmo que divide recursivamente una variable continua basada en el valor de la información. Lo puse en un paquete R aquí: github.com/Zelazny7/binnr (¡trabajo en progreso!). También sustituiría el peso de la evidencia en lugar de la media. Cuando se combina con la regresión LASSO, ¡los resultados son fantásticos!binnr
algoritmo con los CRANsmbinning
?