Si pudieras retroceder en el tiempo y decirte a ti mismo leer un libro específico al comienzo de tu carrera como estadístico, ¿qué libro
Si pudieras retroceder en el tiempo y decirte a ti mismo leer un libro específico al comienzo de tu carrera como estadístico, ¿qué libro
Entiendo que no puede ser negativo ya que es el cuadrado de R. Sin embargo, ejecuté una regresión lineal simple en SPSS con una sola variable independiente y una variable dependiente. Mi salida SPSS me da un valor negativo para . Si tuviera que calcular esto a mano desde R, entonces sería positivo....
Estoy usando R para hacer clustering K-means. Estoy usando 14 variables para ejecutar K-means ¿Cuál es una manera bonita de trazar los resultados de K-means? ¿Hay implementaciones existentes? ¿Tener 14 variables complica el trazado de los resultados? Encontré algo llamado GGcluster que se ve...
Hace mucho tiempo aprendí que era necesaria una distribución normal para usar una prueba T de dos muestras. Hoy un colega me dijo que aprendió que para N> 50 la distribución normal no era necesaria. ¿Es eso cierto? Si es cierto, ¿eso se debe al teorema del límite
¿Cómo describiría la validación cruzada a alguien sin antecedentes de análisis de
Sé que a la gente le encanta cerrar duplicados, así que no estoy pidiendo una referencia para comenzar a aprender estadísticas (como aquí ). Tengo un doctorado en matemáticas pero nunca aprendí estadística. ¿Cuál es la ruta más corta hacia el conocimiento equivalente a un grado superior de...
Entiendo los conceptos básicos de cuál es el objetivo de Support Vector Machines en términos de clasificar un conjunto de entrada en varias clases diferentes, pero lo que no entiendo son algunos de los detalles esenciales. Para empezar, estoy un poco confundido por el uso de Slack Variables. ¿Cuál...
Tengo un conjunto de datos con alrededor de 30 variables independientes y me gustaría construir un modelo lineal generalizado (GLM) para explorar la relación entre ellos y la variable dependiente. Soy consciente de que el método que me enseñaron para esta situación, la regresión gradual, ahora se...
"Básicamente, todos los modelos están equivocados, pero algunos son útiles". --- Caja, George EP; Norman R. Draper (1987). Construcción de modelos empíricos y superficies de respuesta, p. 424, Wiley. ISBN 0471810339. ¿Cuál es exactamente el significado de la frase anterior?...
Recientemente he estado leyendo mucho en este sitio (@Aniko, @Dikran Marsupial, @Erik) y en otros lugares sobre el problema del sobreajuste que ocurre con la validación cruzada - (Smialowski et al 2010 Bioinformática, Hastie, Elementos de aprendizaje estadístico). La sugerencia es que cualquier...
Estoy un poco confundido acerca de la selección de funciones y el aprendizaje automático y me preguntaba si podrían ayudarme. Tengo un conjunto de datos de microarrays que se clasifica en dos grupos y tiene miles de características. Mi objetivo es obtener una pequeña cantidad de genes (mis...
He estado leyendo Elementos de aprendizaje estadístico , y me gustaría saber por qué el Lazo proporciona selección de variables y la regresión de crestas no. Ambos métodos minimizan la suma residual de cuadrados y tienen una restricción sobre los posibles valores de los parámetros . Para Lasso, la...
Estoy usando el algoritmo de bosque aleatorio como un clasificador robusto de dos grupos en un estudio de microarrays con miles de características. ¿Cuál es la mejor manera de presentar el bosque aleatorio para que haya suficiente información para que sea reproducible en un documento? ¿Existe un...
Dado que la Regresión logística es un modelo de clasificación estadística que trata con variables dependientes categóricas, ¿por qué no se llama Clasificación logística ? ¿No debería reservarse el nombre de "Regresión" a los modelos que manejan variables dependientes
Estoy tratando de entender la diferencia entre los diferentes métodos de remuestreo (simulación Monte Carlo, bootstrapping paramétrico, bootstrapping no paramétrico, jackknifing, validación cruzada, pruebas de aleatorización y pruebas de permutación) y su implementación en mi propio contexto usando...
Hace unos años diseñé un detector de radiación que funciona midiendo el intervalo entre eventos en lugar de contarlos. Mi suposición era que, al medir muestras no contiguas, en promedio mediría la mitad del intervalo real. Sin embargo, cuando probé el circuito con una fuente calibrada, la lectura...
Estoy tomando los cursos de Machine Learning en línea y aprendí sobre Gradient Descent para calcular los valores óptimos en la hipótesis. h(x) = B0 + B1X ¿Por qué necesitamos usar el Descenso de degradado si podemos encontrar fácilmente los valores con la siguiente fórmula? Esto parece sencillo...
Hay un viejo dicho: "Correlación no significa causalidad". Cuando enseño, tiendo a usar los siguientes ejemplos estándar para ilustrar este punto: número de cigüeñas y tasa de natalidad en Dinamarca; número de sacerdotes en América y alcoholismo; a principios del siglo XX se observó que había una...
A diferencia de otros artículos, encontré que la entrada de Wikipedia para este tema es ilegible para una persona que no es matemática (como yo). Comprendí la idea básica, que favoreces modelos con menos reglas. Lo que no entiendo es cómo pasas de un conjunto de reglas a un "puntaje de...
Para la regresión lineal, podemos verificar las gráficas de diagnóstico (gráficas de residuos, gráficas QQ normales, etc.) para verificar si se violan los supuestos de la regresión lineal. Para la regresión logística, tengo problemas para encontrar recursos que expliquen cómo diagnosticar el...