¿Es la regresión logística una prueba no paramétrica?

15

Recientemente recibí la siguiente pregunta por correo electrónico. Publicaré una respuesta a continuación, pero estaba interesado en escuchar lo que otros pensaban.

¿Llamarías a la regresión logística una prueba no paramétrica? Según tengo entendido, simplemente etiquetar una prueba no paramétrica porque sus datos no se distribuyen normalmente, es insuficiente. Tiene más que ver con la falta de suposiciones. La regresión logística tiene supuestos.

Jeromy Anglim
fuente
77
(+1) Para el registro, y como contrapunto a las afirmaciones de la pregunta, no conozco ninguna referencia confiable que defina (o incluso caracterice) los métodos no paramétricos como "carentes de supuestos". Todos los procedimientos estadísticos hacen suposiciones. La mayoría de los procedimientos no paramétricos en realidad hacen suposiciones cuantitativas restrictivas sobre las distribuciones de probabilidad subyacentes, pero esas suposiciones no limitan los posibles estados de cosas a un conjunto que tiene la estructura de una variedad real de dimensiones finitas.
whuber
Si hablamos de regresión logística lineal (que parece ser implícita, basada en la respuesta que escribió), entonces, por supuesto, este es un modelo paramétrico, pero vale la pena señalar que si ajusta el efecto covariable utilizando una función suave no paramétrica, Por ejemplo, entonces no hay restricciones paramétricas en la probabilidad estimada en función dex. Esto no solo es cierto sobre el enlace logístico; La misma lógica se aplica a cualquier función de enlace invertible.
Iniciar sesión(PAG(Yyo=1El |Xyo=X)PAG(Yyo=0 0El |Xyo=X))=F(X)
X
Macro
Hago una pregunta relacionada aquí . Estoy empezando a tener la sensación de que algunos casos de GLM (por ejemplo, un modelo logístico) proporcionan una prueba no paramétrica. Revisaré el libro de Wasserman, aunque (a menos que esté recordando mal) hay algún desacuerdo sobre algunos de los principios y hallazgos de su trabajo.
AdamO

Respuestas:

19

Larry Wasserman define un modelo paramétrico como un conjunto de distribuciones "que pueden ser parametrizadas por un número finito de parámetros". (p.87) En contraste, un modelo no paramétrico es un conjunto de distribuciones que no pueden ser parametrizadas por un número finito de parámetros.

Por lo tanto, según esa definición , la regresión logística estándar es un modelo paramétrico. El modelo de regresión logística es paramétrico porque tiene un conjunto finito de parámetros. Específicamente, los parámetros son los coeficientes de regresión. Estos generalmente corresponden a uno para cada predictor más una constante. La regresión logística es una forma particular del modelo lineal generalizado. Específicamente implica el uso de una función de enlace logit para modelar datos distribuidos binomialmente.

Curiosamente, es posible realizar una regresión logística no paramétrica (por ejemplo, Hastie, 1983). Esto podría implicar el uso de splines o alguna forma de suavizado no paramétrico para modelar el efecto de los predictores.

Referencias

  • Wasserman, L. (2004). Todas las estadísticas: un curso conciso en inferencia estadística. Springer Verlag.
  • Hastie, T. (1983). Regresión logística no paramétrica. SLAC PUB-3160, junio. PDF
Jeromy Anglim
fuente
¿Un modelo es un conjunto de distribuciones? Algo esencial falta allí.
rolando2
¿Es habitual hacer una pregunta y responderla usted mismo?
1
@fcop se recomienda. blog.stackoverflow.com/2011/07/…
Jeromy Anglim
Ok, lo siento, no lo sabía
Sin preocupaciones. Para mí, el punto principal del sitio es crear recursos que otros descubran al buscar respuestas en el futuro. Contribuir con sus propias respuestas ayuda con todo eso.
Jeromy Anglim
16

Yo diría que la regresión logística no es una prueba en absoluto; sin embargo, una regresión logística puede conducir a la ausencia de pruebas o varias pruebas.

Tienes razón en que etiquetar algo no paramétrico porque no es normal es insuficiente. Llamaría explícitamente paramétrica a la familia exponencial, por lo que generalmente consideraría la regresión logística (y la regresión de Poisson y la regresión Gamma y ...) como paramétrica, aunque puede haber circunstancias en las que podría aceptar un argumento que podría incluir regresiones logísticas particulares ser considerado como no paramétrico (o al menos en un sentido vagamente ondulado, solo cuasi "paramétrico").

Tenga cuidado con cualquier confusión sobre los dos sentidos en los que una regresión puede llamarse no paramétrica.

XyX

yX

Se usan ambos sentidos, pero cuando se trata de regresión, el segundo tipo se usa con más frecuencia.

Es también posible ser no paramétrico en ambos sentidos, sino más duro (con datos suficientes, podría, por ejemplo, adaptarse a una Theil regresión lineal ponderada localmente).

En el caso de GLM, la segunda forma de regresión múltiple no paramétrica incluye GAM; esa segunda forma es el sentido en el que Hastie generalmente está operando (y bajo el cual está operando en esa cita).

Glen_b -Reinstate a Monica
fuente
3

Una distinción útil que podría agregar un poco a las respuestas anteriores: Andrew Ng ofrece una heurística de lo que significa ser un modelo no paramétrico en la Lección 1 de los materiales del curso para el curso CS-229 de Stanford sobre aprendizaje automático.

Allí Ng dice (pp. 14-15):

θyoθyoh

Creo que esta es una forma útil y contrastante de pensarlo porque infunde directamente la noción de complejidad. Los modelos no paramétricos no son intrínsecamente menos complejos, ya que pueden requerir mantener muchos más datos de entrenamiento. Simplemente significa que no está reduciendo el uso de los datos de entrenamiento al comprimirlos en un cálculo con parámetros finitos. Para eficiencia o imparcialidad o una serie de otras propiedades, es posible que desee parametrizar. Pero puede haber ganancias de rendimiento si puede darse el lujo de renunciar a la parametrización y mantener gran cantidad de datos.

ely
fuente
0

Creo que la regresión logística es una técnica paramétrica.

Esto podría ser útil, de Wolfowitz (1942) [Funciones de partición aditiva y una clase de hipótesis estadísticas Los Anales de Estadística Matemática, 1942, 13, 247-279]:

“ Se supone que las funciones de distribución [nota: plural !!!] de las diversas variables estocásticas que entran en sus problemas son de forma funcional conocida, y las teorías de estimación y de hipótesis de prueba son teorías de estimación y de hipótesis de prueba acerca de , uno o más parámetros, en número finito, cuyo conocimiento determinaría completamente las diversas funciones de distribución involucradas. Nos referiremos a esta situación por brevedad como el caso paramétrico, y denotaremos la situación opuesta, donde las formas funcionales de las distribuciones son desconocidas ', como el caso no paramétrico.

Además, habiendo escuchado esto discutido bastante, Noether (1984) me pareció divertido [No paramétricos: Los primeros años: impresiones y recuerdos The American Statistician, 1984, 38, 173-178]:

"El término no paramétrico puede tener algún significado histórico y significado para los estadísticos teóricos, pero solo sirve para confundir a los estadísticos aplicados".

AndyF
fuente
0

Hastie y Tibshirani definen que la regresión lineal es un enfoque paramétrico ya que asume una forma funcional lineal de f (X). Los métodos no paramétricos no asumen explícitamente la forma de f (X). Esto significa que un método no paramétrico se ajustará al modelo basado en una estimación de f, calculada a partir del modelo. La regresión logística establece que p (x) = Pr (Y = 1 | X = x) donde la probabilidad se calcula mediante la función logística pero no se asume el límite logístico que separa tales clases, lo que confirma que LR también es no paramétrico

Juan Zamora
fuente