Sé que k-means no está supervisado y se utiliza para la agrupación, etc., y que k-NN está supervisado. ¿Pero quería saber diferencias concretas entre los
Clasificadores de k-vecino más cercano Estos clasificadores se basan en la memoria y no requieren que se ajuste ningún modelo. Dado un punto de consulta x0, encontramos los k puntos de entrenamiento x (r), r = 1, ..., k más cercanos en distancia a x0, y luego clasificamos usando el voto mayoritario entre los k vecinos.
Sé que k-means no está supervisado y se utiliza para la agrupación, etc., y que k-NN está supervisado. ¿Pero quería saber diferencias concretas entre los
Quiero generar la trama descrita en el libro ElemStatLearn "Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Segunda edición" de Trevor Hastie y Robert Tibshirani y Jerome Friedman. La trama es: Me pregunto cómo puedo producir este gráfico exacto R,...
Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit =
Por lo que entiendo, solo podemos construir una función de regresión que se encuentre dentro del intervalo de los datos de entrenamiento. Por ejemplo (solo uno de los paneles es necesario): ¿Cómo predeciría el futuro con un regresor KNN? Nuevamente, parece aproximarse solo a una función que se...
Soy un poco nuevo en minería de datos / aprendizaje automático / etc. y he estado leyendo sobre un par de formas de combinar múltiples modelos y ejecuciones del mismo modelo para mejorar las predicciones. Mi impresión al leer un par de documentos (que a menudo son interesantes y geniales en...
En 1999, Beyer et al. preguntó: ¿ Cuándo es significativo el "vecino más cercano"? ¿Existen mejores formas de analizar y visualizar el efecto de la planitud de distancia en la búsqueda de NN desde 1999? ¿El conjunto de datos [un determinado] proporciona respuestas significativas al problema...
¿Cuál es la complejidad temporal del algoritmo k -NN con un enfoque de búsqueda ingenuo (sin árbol kd o similares)? Estoy interesado en su complejidad temporal considerando también el hiperparámetro k . He encontrado respuestas contradictorias: O (nd + kn), donde n es la cardinalidad del...
Parece que KNN es un algoritmo de aprendizaje discriminativo, pero parece que no puedo encontrar ninguna fuente en línea que lo confirme. ¿Es KNN un algoritmo de aprendizaje
Los lugares que he estado leyendo sobre la maldición de la dimensionalidad lo explican conjuntamente con kNN principalmente, y los modelos lineales en general. Regularmente veo a los mejores clasificados en Kaggle usando miles de características en el conjunto de datos que apenas tiene 100k puntos...
Realicé un CV de 5 veces para seleccionar la K óptima para KNN. Y parece que cuanto más grande se hace K, más pequeño es el error ... Lo siento, no tenía una leyenda, pero los diferentes colores representan diferentes pruebas. Hay 5 en total y parece que hay poca variación entre ellos. El error...
¿Podría alguien explicarme por qué necesita normalizar los datos cuando usa K vecinos más cercanos? He intentado buscar esto, pero parece que todavía no puedo entenderlo. Encontré el siguiente enlace: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 Pero en...
Estoy buscando un paquete de imputación KNN. He estado mirando el paquete de imputación ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) pero, por alguna razón, la función de imputación KNN (incluso cuando se sigue el ejemplo de la descripción) solo parece para imputar valores...
Estoy programando un algoritmo kNN y me gustaría saber lo siguiente: Tie-breaks: ¿Qué sucede si no hay un ganador claro en la votación mayoritaria? Por ejemplo, todos los vecinos más cercanos k son de diferentes clases, o para k = 4 hay 2 vecinos de la clase A y 2 vecinos de la clase B? ¿Qué...
Entiendo el razonamiento detrás de la normalización de la columna, ya que hace que las características se ponderen por igual, incluso si no se miden en la misma escala; sin embargo, a menudo en la literatura vecina más cercana, las columnas y las filas se normalizan. ¿Para qué sirve la...
Soy nuevo en kernels y he encontrado un inconveniente al intentar kernelise kNN. Preliminares Estoy usando un polinomio núcleo: K( X , y ) = ( 1 + ⟨ x , y ⟩ )reK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d Su kNN euclidiano típico utiliza la...
¿Alguien puede informar sobre su experiencia con un estimador de densidad de núcleo adaptativo? (Hay muchos sinónimos: adaptativo | variable | ancho variable, KDE | histograma | interpolador ...) La estimación de densidad de kernel variable dice "variamos el ancho del kernel en diferentes...
Según algún artículo que estoy leyendo, la distancia de Jeffries y Matusita se usa comúnmente. Pero no pude encontrar mucha información al respecto, excepto la fórmula a continuación JMD (x, y) = ∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Es similar...
En Elementos de aprendizaje estadístico , se presenta un problema para resaltar problemas con k-nn en espacios de alta dimensión. Hay puntos de datos que están distribuidos uniformemente en una bola de unidad -dimensional.NNNppp La distancia media desde el origen hasta el punto de datos más...
Estoy leyendo el libro de Kevin Murphy: Aprendizaje automático: una perspectiva probabilística. En el primer capítulo, el autor explica la maldición de la dimensionalidad y hay una parte que no entiendo. Como ejemplo, el autor afirma: Considere que las entradas están distribuidas uniformemente a...
Como entendí, k-NN es un algoritmo de aprendizaje lento y no necesita una fase de entrenamiento. Entonces, ¿por qué necesitamos usar .fit()con sklearn y qué sucede cuando lo