Estoy tratando de determinar si las probabilidades simples funcionarán para mi problema o si será mejor usar (y aprender) métodos más sofisticados como la regresión logística.
La variable de respuesta en este problema es una respuesta binaria (0, 1). Tengo varias variables predictoras que son todas categóricas y desordenadas. Estoy tratando de determinar qué combinaciones de las variables predictoras producen la mayor proporción de 1. ¿Necesito regresión logística? ¿Cómo sería una ventaja calcular las proporciones en mi conjunto de muestras para cada combinación de predictores categóricos?
r
probability
logistic
Rachel
fuente
fuente
Respuestas:
La regresión logística, hasta la imprecisión numérica, dará exactamente los mismos ajustes que los porcentajes tabulados. Por lo tanto, si sus variables independientes son objetos factoriales
factor1
, etc., y los resultados dependientes (0 y 1) lo sonx
, puede obtener los efectos con una expresión comoCompara esto con
Como ejemplo, generemos algunos datos aleatorios:
El resumen se obtiene con
Su salida incluye
Para referencia futura, la estimación de los factores en los niveles (1,2,0) en la fila 6 de la salida es 0.5.
La regresión logística abandona sus coeficientes de esta manera:
Para usarlos, necesitamos la función logística:
Para obtener, por ejemplo, la estimación de factores en los niveles (1,2,0), calcule
(Observe cómo se deben incluir todas las interacciones en el modelo y se deben aplicar todos los coeficientes asociados para obtener una estimación correcta).
de acuerdo con los resultados de
aggregate
. (El encabezado "(Intercepción)" en la salida es un vestigio de la entrada y efectivamente no tiene sentido para este cálculo).La misma información en otra forma más aparece en la salida de
table
. Por ejemplo, la salida (larga) deincluye este panel:
factor1
x
aggregate
glm
Finalmente, una combinación de factores que producen la mayor proporción en el conjunto de datos se obtiene convenientemente de la salida de
aggregate
:fuente
Para un vistazo rápido a la proporción de respuestas binarias dentro de cada categoría y / o condicional en múltiples categorías, los gráficos pueden ser útiles. En particular, para visualizar simultáneamente proporciones condicionadas en muchas variables independientes categóricas, sugeriría Gráficos de mosaico .
A continuación se muestra un ejemplo tomado de una publicación de blog, Comprensión de gráficos basados en áreas: gráficos de mosaico de los gráficos estadísticos y más blog. Este ejemplo visualiza la proporción de sobrevivientes en el Titanic en azul, condicional a la clase del pasajero. Se puede evaluar simultáneamente la proporción de supervivientes, sin dejar de apreciar el número total de pasajeros dentro de cada uno de los subgrupos (información útil con certeza, especialmente cuando ciertos subgrupos son escasos y esperaríamos una variación más aleatoria).
(fuente: theusrus.de )
Luego, se pueden condicionar las parcelas de mosaico posteriores a múltiples variables independientes categóricas. El siguiente ejemplo de la misma publicación de blog en un resumen visual rápido demuestra que todos los niños pasajeros en la primera y segunda clase sobrevivieron, mientras que en la tercera clase a los niños no les fue tan bien. También muestra claramente que las mujeres adultas tenían una tasa de supervivencia mucho más alta en comparación con los hombres dentro de cada clase, aunque la proporción de mujeres sobrevivientes entre clases disminuyó apreciablemente de la primera a la segunda a la tercera clase (y luego fue relativamente alta nuevamente para la tripulación, aunque una vez más, tenga en cuenta que no existen muchos miembros femeninos de la tripulación, dado lo estrecho que es el listón).
(fuente: theusrus.de )
¡Es sorprendente la cantidad de información que se muestra, esto es proporciones en cuatro dimensiones (clase, adulto / niño, sexo y proporción de sobrevivientes)!
Estoy de acuerdo si está interesado en la predicción o en una explicación más causal en general, querrá recurrir a un modelo más formal. Sin embargo, las gráficas gráficas pueden ser pistas visuales muy rápidas en cuanto a la naturaleza de los datos, y pueden proporcionar otras ideas que a menudo se pierden al estimar simplemente los modelos de regresión (especialmente al considerar las interacciones entre las diferentes variables categóricas).
fuente
Nb
? ¡Siempre digo mejor con las cifras también!Dependiendo de sus necesidades, es posible que la partición recursiva proporcione un método fácil de interpretar para predecir una variable de resultado. Para obtener una introducción de R a estos métodos, consulte la página del modelo basado en el árbol de Quick-R . Por lo general, prefiero la
ctree()
implementación en el paquete `party de R, ya que uno no tiene que preocuparse por la poda, y produce gráficos bonitos por defecto.Esto entraría en la categoría de algoritmos de selección de características sugeridos en una respuesta anterior, y generalmente da predicciones tan buenas, si no mejores, como la regresión logística.
fuente
Si tiene menos datos, desea aprender menos parámetros. Puede reducir el número de parámetros suponiendo, por ejemplo, que las configuraciones de predictores individuales tienen efectos consistentes en la variable de respuesta.
Si cree que sus predictores son independientes entre sí, entonces la regresión logística es el algoritmo único que hace lo correcto. (Incluso si no son independientes, aún puede hacerlo bastante bien).
En resumen, la regresión logística supone una influencia independiente de los predictores, lo que reduce la cantidad de parámetros del modelo y genera un modelo fácil de aprender.
fuente
Deberías mirar los algoritmos de selección de características. Uno que sea adecuado para su caso (clasificación binaria, variables categóricas) es el método de "relevancia mínima de redundancia máxima" (mRMR). Puede probarlo rápidamente en línea en http://penglab.janelia.org/proj/mRMR/
fuente
response,predictor1,predictor2,predictor3 <line break here> 1,5,4,3 <line break here> 0,5,3,-1 <line break here> 1,1,2,3
Trabajo en el campo de la calificación crediticia, donde lo que aquí se presenta como un caso extraño es la norma.
Usamos la regresión logística y convertimos las variables categóricas y continuas en ponderaciones de evidencia (WOE), que luego se utilizan como predictores en la regresión. Se gasta mucho tiempo agrupando las variables categóricas y discretizando (agrupando / clasificando) las variables continuas.
El peso de la evidencia es un cálculo simple. Es el registro de las probabilidades para la clase, menos el registro de probabilidades para la población:
WOE = ln (Bueno (Clase) / Malo (Clase)) - ln (Bueno (TODO) / Malo (TODO)) Este es el Metodología de transformación estándar para casi todos los modelos de calificación crediticia creados mediante regresión logística. Puede usar los mismos números en un enfoque por partes.
Lo bueno de esto es que siempre sabrá si los coeficientes asignados a cada WOE tienen sentido. Los coeficientes negativos son contrarios a los patrones dentro de los datos, y generalmente resultan de la multicolinealidad; y coeficientes superiores a 1.0 indican sobrecompensación. La mayoría de los coeficientes saldrán en algún lugar entre cero y uno.
fuente