¿Cuál es exactamente la diferencia entre un modelo paramétrico y no paramétrico?

14

Estoy confundido con la definición de modelo no paramétrico después de leer este enlace Modelos paramétricos versus no paramétricos y responder comentarios de mi otra pregunta .

Originalmente pensé que "paramétrico vs no paramétrico" significa si tenemos supuestos de distribución en el modelo (similar a la prueba de hipótesis paramétrica o no paramétrica). Pero ambos recursos afirman que "paramétrico vs no paramétrico" se puede determinar si el número de parámetros en el modelo depende del número de filas en la matriz de datos.

Para la estimación de la densidad del núcleo (no paramétrica), se puede aplicar dicha definición. Pero según esta definición, ¿cómo puede una red neuronal ser un modelo no paramétrico, ya que el número de parámetros en el modelo depende de la estructura de la red neuronal y no del número de filas en la matriz de datos?

¿Cuál es exactamente la diferencia entre un modelo paramétrico y un modelo no paramétrico?

Haitao Du
fuente
3
Tenga en cuenta que "no paramétrico" en relación con los modelos de distribución (como en su referencia a las pruebas de hipótesis) se relaciona con el número de parámetros utilizados para definir la distribución ("paramétrico" = definido por un número fijo de parámetros; los métodos no paramétricos no tienen un distribución con un número fijo de parámetros: tienden a tener suposiciones más leves, como continuidad o simetría)
Glen_b -Reinstate Monica
Mi opinión: atenerse a su definición. Es una definición sistemática, como deberían ser las definiciones. El otro es inestable: primero debe definir el "número de parámetros efectivos" de un algoritmo. Pero siempre he visto esta cantidad definida caso por caso (es decir, tiene una definición para una regresión lineal, una para el vecino más cercano, una para las redes neuronales ...). Entonces, a menos que alguien pueda ofrecer una definición general y sistemática del número efectivo de parámetros, realmente no puedo tomar esta definición en serio.
Adrien
1
Se encuentra debajo del enlace que tiene una buena explicación de los algoritmos de aprendizaje automático paramétricos y los algoritmos de aprendizaje automático no paramétricos. machinelearningmastery.com/…
Satya

Respuestas:

16

En un modelo paramétrico, el número de parámetros se fija con respecto al tamaño de la muestra. En un modelo no paramétrico, el número (efectivo) de parámetros puede crecer con el tamaño de la muestra.

En una regresión OLS, el número de parámetros siempre será la longitud de β, más uno para la varianza.

Una red neuronal con arquitectura fija y sin caída de peso sería un modelo paramétrico.

Pero si tiene una disminución de peso, entonces el valor del parámetro de disminución seleccionado por validación cruzada generalmente se reducirá con más datos. Esto puede interpretarse como un aumento en el número efectivo de parámetros al aumentar el tamaño de la muestra.

genérico_usuario
fuente
1
Seguramente, aunque el parámetro de disminución de peso sigue siendo un único parámetro adicional y no (a menos que me equivoque) cambia la estructura de la red. ¿Cómo se puede interpretar como un aumento en el número de parámetros a medida que aumenta el tamaño de la muestra?
Morgan Ball
2
La disminución de peso es un hiperparámetro. Lea aquí sobre los grados efectivos de libertad en la regularización: statweb.stanford.edu/~tibs/sta305files/Rudyregularization.pdf. Si bien las redes neuronales no son lineales, la caída de peso realiza la misma función que una penalización cuadrática en estos modelos.
generic_user
Estoy (por supuesto) de acuerdo con la intuición de parámetros efectivos, pero no estoy de acuerdo con el uso de esta noción para definir paramétrico / no paramétrico, vea mi comentario a la pregunta.
Adrien
Sí, entiendo tu punto. Pero supongo que las personas razonables pueden estar en desacuerdo sobre si la inestabilidad de una definición la convierte en una definición inútil, ceteris paribus.
generic_user
1
He visto esta explicación antes y no me gustó. De esta manera, puedo llamar a los mínimos cuadrados ordinarios con contracción un método no paramétrico porque los parámetros "efectivos" pueden ser menores que los coeficientes. Creo que no es una categorización útil, ya que difumina la línea entre los métodos verdaderamente no paramétricos
Aksakal
1

Creo que si el modelo se define como un conjunto de ecuaciones (puede ser un sistema de ecuaciones concurrentes o una sola), y aprendemos sus parámetros, entonces es paramétrico. Eso incluye ecuaciones diferenciales e incluso la ecuación de Navier-Stokes. Los modelos definidos descriptivamente, independientemente de cómo se resuelvan, entran en la categoría de no paramétricos. Por lo tanto, OLS sería paramétrico, e incluso la regresión cuantil, aunque pertenece al dominio de las estadísticas no paramétricas, es un modelo paramétrico.

Por otro lado, cuando usamos SEM (modelado de ecuaciones estructurales) para identificar el modelo, sería un modelo no paramétrico, hasta que hayamos resuelto el SEM. PCA sería paramétrico, porque las ecuaciones están bien definidas, pero CCA puede ser no paramétrico, porque estamos buscando correlaciones en todas las variables, y si estas son correlaciones de Spearman, tenemos un modelo no paramétrico. Con las correlaciones de Pearson, implicamos un modelo paramétrico (lineal). Creo que los algoritmos de agrupamiento no serían paramétricos, a menos que busquemos grupos de cierta forma.

Y luego tenemos la regresión no paramétrica, que no es paramétrica, y la regresión LOESS, que es paramétrica, pero tiene el mismo propósito: definimos la ecuación y la ventana.

AlexG
fuente
3
Sus descripciones son bastante vagas y parecen estar en desacuerdo con el significado estadístico estándar de "paramétrico" y "no paramétrico". En particular, ha tomado una posición inusual con respecto a algunas técnicas particulares, como LOESS, que generalmente se considera no paramétrico: consulte en.wikipedia.org/wiki/Local_regression por ejemplo.
whuber
@whuber gracias por el enlace! Tiene razón: LOESS se considera no paramétrico. Lo cual es bastante contradictorio para mí. ¿Qué pasa con el suavizado exponencial? ¿Es no paramétrico porque el peso de cada punto es diferente? ¿O es paramétrico porque el alfa es el mismo para toda la serie temporal?
AlexG
Los parámetros en situaciones paramétricas no cuentan necesariamente un montón de números. Se refieren a cómo se debe describir una familia de modelos estadísticos. Por ejemplo, cuando un procedimiento ajusta un valor único a los datos (tal vez por validación cruzada, tal vez por otros medios) pero solo supone que los datos son una muestra aleatoria de cualquier distribución, ese procedimiento no es paramétrico.
whuber
0

El modelo paramétrico se puede generar utilizando una ecuación, como el modelo de regresión logística, losoloreres(sol)=yonortet+unaX1+siX2+.... El modelo no paramétrico son algoritmos de caja negra como bosque aleatorio, árbol de decisión. No existe una ecuación que pueda describir la relación de atributos detrás del modelo.

Cali
fuente
1
También puedo escribir ecuaciones para métodos de estimación de kernel, que no son paramétricos.
HelloWorld
1
incorrecto: puede escribir ecuaciones explícitas y simples para la media predictiva y la varianza predictiva de los procesos gaussianos, que son uno de los métodos de regresión no paramétricos más comunes, y para muchos otros métodos de regresión no paramétricos.
DeltaIV