Recientemente recibí la siguiente pregunta por correo electrónico. Publicaré una respuesta a continuación, pero estaba interesado en escuchar lo que otros pensaban.
¿Llamarías a la regresión logística una prueba no paramétrica? Según tengo entendido, simplemente etiquetar una prueba no paramétrica porque sus datos no se distribuyen normalmente, es insuficiente. Tiene más que ver con la falta de suposiciones. La regresión logística tiene supuestos.
hypothesis-testing
logistic
nonparametric
Jeromy Anglim
fuente
fuente
Respuestas:
Larry Wasserman define un modelo paramétrico como un conjunto de distribuciones "que pueden ser parametrizadas por un número finito de parámetros". (p.87) En contraste, un modelo no paramétrico es un conjunto de distribuciones que no pueden ser parametrizadas por un número finito de parámetros.
Por lo tanto, según esa definición , la regresión logística estándar es un modelo paramétrico. El modelo de regresión logística es paramétrico porque tiene un conjunto finito de parámetros. Específicamente, los parámetros son los coeficientes de regresión. Estos generalmente corresponden a uno para cada predictor más una constante. La regresión logística es una forma particular del modelo lineal generalizado. Específicamente implica el uso de una función de enlace logit para modelar datos distribuidos binomialmente.
Curiosamente, es posible realizar una regresión logística no paramétrica (por ejemplo, Hastie, 1983). Esto podría implicar el uso de splines o alguna forma de suavizado no paramétrico para modelar el efecto de los predictores.
Referencias
fuente
Yo diría que la regresión logística no es una prueba en absoluto; sin embargo, una regresión logística puede conducir a la ausencia de pruebas o varias pruebas.
Tienes razón en que etiquetar algo no paramétrico porque no es normal es insuficiente. Llamaría explícitamente paramétrica a la familia exponencial, por lo que generalmente consideraría la regresión logística (y la regresión de Poisson y la regresión Gamma y ...) como paramétrica, aunque puede haber circunstancias en las que podría aceptar un argumento que podría incluir regresiones logísticas particulares ser considerado como no paramétrico (o al menos en un sentido vagamente ondulado, solo cuasi "paramétrico").
Tenga cuidado con cualquier confusión sobre los dos sentidos en los que una regresión puede llamarse no paramétrica.
Se usan ambos sentidos, pero cuando se trata de regresión, el segundo tipo se usa con más frecuencia.
Es también posible ser no paramétrico en ambos sentidos, sino más duro (con datos suficientes, podría, por ejemplo, adaptarse a una Theil regresión lineal ponderada localmente).
En el caso de GLM, la segunda forma de regresión múltiple no paramétrica incluye GAM; esa segunda forma es el sentido en el que Hastie generalmente está operando (y bajo el cual está operando en esa cita).
fuente
Una distinción útil que podría agregar un poco a las respuestas anteriores: Andrew Ng ofrece una heurística de lo que significa ser un modelo no paramétrico en la Lección 1 de los materiales del curso para el curso CS-229 de Stanford sobre aprendizaje automático.
Allí Ng dice (pp. 14-15):
Creo que esta es una forma útil y contrastante de pensarlo porque infunde directamente la noción de complejidad. Los modelos no paramétricos no son intrínsecamente menos complejos, ya que pueden requerir mantener muchos más datos de entrenamiento. Simplemente significa que no está reduciendo el uso de los datos de entrenamiento al comprimirlos en un cálculo con parámetros finitos. Para eficiencia o imparcialidad o una serie de otras propiedades, es posible que desee parametrizar. Pero puede haber ganancias de rendimiento si puede darse el lujo de renunciar a la parametrización y mantener gran cantidad de datos.
fuente
Creo que la regresión logística es una técnica paramétrica.
Esto podría ser útil, de Wolfowitz (1942) [Funciones de partición aditiva y una clase de hipótesis estadísticas Los Anales de Estadística Matemática, 1942, 13, 247-279]:
Además, habiendo escuchado esto discutido bastante, Noether (1984) me pareció divertido [No paramétricos: Los primeros años: impresiones y recuerdos The American Statistician, 1984, 38, 173-178]:
fuente
Hastie y Tibshirani definen que la regresión lineal es un enfoque paramétrico ya que asume una forma funcional lineal de f (X). Los métodos no paramétricos no asumen explícitamente la forma de f (X). Esto significa que un método no paramétrico se ajustará al modelo basado en una estimación de f, calculada a partir del modelo. La regresión logística establece que p (x) = Pr (Y = 1 | X = x) donde la probabilidad se calcula mediante la función logística pero no se asume el límite logístico que separa tales clases, lo que confirma que LR también es no paramétrico
fuente