Estoy leyendo el artículo de Wikipedia sobre modelos estadísticos aquí , y estoy algo perplejo en cuanto al significado de "modelos estadísticos no paramétricos", específicamente:
Un modelo estadístico no es paramétrico si el conjunto de parámetros es de dimensión infinita. Un modelo estadístico es semiparamétrico si tiene parámetros de dimensión finita e infinita. Formalmente, si es la dimensión de y es el número de muestras, ambos modelos semiparamétricos y no paramétricos tienen como . Si como , entonces el modelo es semiparamétrico; de lo contrario, el modelo no es paramétrico.Θ n d → ∞ n → ∞ d / n → 0 n → ∞
Entiendo que si la dimensión , (supongo que significa literalmente, el número de parámetros) de un modelo es finita, entonces este es un modelo paramétrico.
Lo que no tiene sentido para mí es cómo podemos tener un modelo estadístico que tenga un número infinito de parámetros, de modo que podamos llamarlo "no paramétrico". Además, incluso si ese fuera el caso, ¿por qué el "no", si de hecho hay un número infinito de dimensiones? Por último, dado que estoy llegando a esto desde un contexto de aprendizaje automático, ¿hay alguna diferencia entre este "modelo estadístico no paramétrico" y decir "modelos de aprendizaje automático no paramétrico"? Finalmente, ¿cuáles podrían ser algunos ejemplos concretos de tales "modelos dimensionales infinitos no paramétricos"?
fuente
Respuestas:
Como Johnnyboycurtis ha respondido, los métodos no paramétricos son aquellos que no suponen la distribución de la población o el tamaño de la muestra para generar un modelo.
Un modelo k-NN es un ejemplo de un modelo no paramétrico, ya que no considera ningún supuesto para desarrollar un modelo. Un Naive Bayes o K-means es un ejemplo de paramétrico, ya que supone una distribución para crear un modelo.
Por ejemplo, K-means asume lo siguiente para desarrollar un modelo Todos los grupos son esféricos (iid Gaussian). Todos los ejes tienen la misma distribución y, por lo tanto, varianza. Todos los grupos son de tamaño uniforme.
En cuanto a k-NN, utiliza el conjunto completo de entrenamiento para la predicción. Calcula los vecinos más cercanos desde el punto de prueba para la predicción. No supone distribución para crear un modelo.
Para más información:
fuente
Entonces, creo que te faltan algunos puntos. Primero, y lo más importante,
Aquí hay un tutorial simple (aplicado) sobre algunos modelos no paramétricos: http://www.r-tutor.com/elementary-statistics/non-parametric-methods
Un investigador puede decidir usar un modelo no paramétrico frente a un modelo paramétrico, por ejemplo, la regresión no paramétrica frente a la regresión lineal, porque los datos violan los supuestos del modelo paramétrico. Dado que proviene de un entorno de ML, supongo que nunca aprendió los supuestos típicos del modelo de regresión lineal. Aquí hay una referencia: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php
El incumplimiento de los supuestos puede sesgar las estimaciones de sus parámetros y, en última instancia, aumentar el riesgo de conclusiones no válidas. Un modelo no paramétrico es más robusto para los valores atípicos, las relaciones no lineales, y no depende de muchos supuestos de distribución de la población, por lo tanto, puede proporcionar resultados más dignos de confianza al intentar hacer inferencias o predicciones.
Para un tutorial rápido sobre regresión no paramétrica, recomiendo estas diapositivas: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf
fuente
Actualmente estoy tomando un curso sobre aprendizaje automático, donde utilizamos la siguiente definición de modelos no paramétricos: "Los modelos no paramétricos crecen en complejidad con el tamaño de los datos".
Modelo paramétrico
Para ver qué significa, echemos un vistazo a la regresión lineal, un modelo paramétrico: allí intentamos predecir una función parametrizada en : La dimensionalidad de w es independiente del número de observaciones, o el tamaño de sus datos. f ( x ) = w T xw∈Rd
Modelos no paramétricos
En cambio, la regresión del núcleo intenta predecir la siguiente función: donde tenemos puntos de datos, son los pesos es la función del núcleo. Aquí el número de parámetros es dependiente del número de puntos de datos .n α i k ( x i , x ) α i n
Lo mismo es cierto para el perceptrón kernelized:
Volvamos a su definición y digamos que d era el número de . Si dejamos entonces . Eso es exactamente lo que pide la definición de Wikipedia. n → ∞ d → ∞αi n→∞ d→∞
Tomé la función de regresión del kernel de mis diapositivas de lectura y la función de perceptrón kernelized de wikipedia: https://en.wikipedia.org/wiki/Kernel_method
fuente