Las diferencias entre la regresión logística aleatorizada y la regresión logística simple y vainilla

12

Me gustaría saber las diferencias entre la Regresión logística aleatoria (RLR) y la Regresión logística simple (LR), por lo tanto, estoy leyendo un artículo "Selección de estabilidad" de Meinshausen, et al. ; Sin embargo, no entiendo qué es RLR y cuáles son las diferencias entre RLR y LR.

¿Alguien podría señalar lo que debería leer para entender RLR? ¿O hay un ejemplo simple para comenzar?

Hendra Bunyamin
fuente
1
RLR no es un término estándar. Por favor, defina el método.
Frank Harrell
Gracias @FrankHarrell ... El método proviene de una biblioteca de aprendizaje de scikit .
Hendra Bunyamin
Ahora que hay un nuevo sitio de intercambio de pila para aprendizaje automático / Big Data, tal vez esta pregunta pertenece allí.
Placidia
44
@Placidia Esa es una buena sugerencia. Sin embargo, su propia respuesta muestra por qué esta pregunta pertenece aquí: estamos en mejores condiciones para proporcionar una perspectiva equilibrada que caracterice y compare con precisión los aspectos estadísticos y de LD de la pregunta. Aunque es posible que alguien en el sitio de "ciencia de datos" pueda contribuir con tal respuesta, mi experiencia allí es que sería poco probable.
whuber
3
Estoy sorprendido de que el nuevo sitio sea ciencia de datos de llamadas, que es más de la mitad sobre estadísticas, de eso se trata este sitio.
Frank Harrell

Respuestas:

17

Es posible que desee consultar esta referencia . Sci-kit learn implementa la regresión logística aleatoria y el método se describe allí.

Pero para responder a su pregunta, los dos métodos difieren en gran medida en sus objetivos. La regresión logística se trata de ajustar un modelo y RLR se trata de encontrar las variables que entran en el modelo.

La regresión logística de vainilla es un modelo lineal generalizado. Para una respuesta binaria, postulamos que las probabilidades de registro de la probabilidad de respuesta es una función lineal de varios predictores. Los coeficientes de los predictores se estiman utilizando la máxima probabilidad y la inferencia sobre los parámetros se basa en grandes propiedades de muestra del modelo. Para obtener los mejores resultados, generalmente suponemos que el modelo es bastante simple y bien entendido. Sabemos qué variables independientes impactan la respuesta. Queremos estimar los parámetros del modelo.

Por supuesto, en la práctica, no siempre sabemos qué variables deben incluirse en el modelo. Esto es especialmente cierto en situaciones de aprendizaje automático donde el número de variables explicativas potenciales es enorme y sus valores son escasos.

A lo largo de los años, muchas personas han intentado utilizar las técnicas de ajuste de modelos estadísticos con el propósito de seleccionar variables (leer "características"). En un nivel de confiabilidad creciente:

  1. Ajuste un modelo grande y descarte variables con estadísticas de Wald no significativas. No siempre produce el mejor modelo.
  2. Mira todos los modelos posibles y elige el "mejor". Computacionalmente intensivo y no robusto.
  3. Ajuste el modelo grande con un término de penalización L1 (estilo lazo). Las variables inútiles se caen en el ajuste. Mejor, pero inestable con matrices dispersas.
  4. Método de aleatorización 3. Tome subconjuntos aleatorios, ajuste un modelo penalizado a cada uno y compacte los resultados. Se seleccionan las variables que aparecen con frecuencia. Cuando la respuesta es binaria, se trata de una regresión logística aleatoria. Se puede extraer una técnica similar con datos continuos y el modelo lineal general.
Placidia
fuente
2
+1 Es un placer ver una encuesta tan bien articulada, legible e informativa de una metodología general.
whuber