¿Es válido usar la longitud media ( hhh ) y el peso medio ( www ) de una población dada para calcular el índice de masa corporal promedio ( BMI=wh2BMI=wh2BMI = \frac{w}{h^2} ) para esa
¿Es válido usar la longitud media ( hhh ) y el peso medio ( www ) de una población dada para calcular el índice de masa corporal promedio ( BMI=wh2BMI=wh2BMI = \frac{w}{h^2} ) para esa
Suponga la siguiente situación: tenemos un gran número (por ejemplo, 20) con grupos pequeños (por ejemplo, n = 3). Noté que si genero valores a partir de la distribución uniforme, los residuos se verán aproximadamente normales a pesar de que la distribución del error es uniforme. El siguiente...
Tengo un gran conjunto de datos (20,000 puntos de datos), de los cuales quiero tomar muestras repetidas de 10 puntos de datos. Sin embargo, una vez que haya elegido esos 10 puntos de datos, quiero que no se vuelvan a seleccionar. Intenté usar la samplefunción, pero no parece tener una opción para...
Estoy tratando de averiguar exactamente cuál es la diferencia entre las pruebas y las pruebas .tttzzz Por lo que puedo decir, para ambas clases de pruebas uno usa la misma estadística de prueba, algo de la forma b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} donde...
¿Existe una diferencia explícita entre los pronósticos dentro de la muestra y los pronósticos seudo fuera de la muestra ? Ambos se entienden en el contexto de evaluar y comparar modelos de
En mi exposición en el aula a la minería de datos, el método de retención se introdujo como una forma de evaluar el rendimiento del modelo. Sin embargo, cuando tomé mi primera clase de modelos lineales, esto no se introdujo como un medio de validación o evaluación del modelo. Mi investigación en...
Las competiciones de Kaggle determinan las clasificaciones finales en función de un conjunto de pruebas extendido. Un conjunto de prueba extendido es una muestra; puede no ser representativo de la población que se está modelando. Dado que cada presentación es como una hipótesis, el algoritmo que...
Tengo un conjunto de datos que contiene la cantidad de acciones realizadas por individuos en el transcurso de 7 días. La acción específica no debería ser relevante para esta pregunta. Aquí hay algunas estadísticas descriptivas para el conjunto de datos: RangoMediaDiferenciaNumero de observaciones0...
Estoy buscando consejos sobre cómo analizar datos de encuestas complejas con modelos multinivel en R. He usado el surveypaquete para ponderar las probabilidades desiguales de selección en modelos de un nivel, pero este paquete no tiene funciones para el modelado multinivel. El lme4paquete es...
Sé que usamos para estimar la varianza de una población. Recuerdo un video de Khan Academy donde la intuición dada era que nuestra media estimada probablemente esté un poco fuera de la real, por lo que las distancias realidad serían mayores, por lo que dividimos por menos ( lugar de ) para obtener...
Jerome Cornfield ha escrito: Uno de los mejores frutos de la revolución de los pescadores fue la idea de la aleatorización, y los estadísticos que están de acuerdo en algunas otras cosas al menos han estado de acuerdo en esto. Pero a pesar de este acuerdo y del uso generalizado de los...
SurveyMonkey tiene pasos y una tabla para que pueda determinar qué tamaño de muestra necesita para un margen de error o intervalo de confianza dado, en función del tamaño de su población. Tamaño de muestra de SurveyMonkey ¿Este gráfico simplemente ignora el hecho de que no obtendrá una muestra...
Tengo un conjunto de datos con 26 características y 31000 filas. Es el conjunto de datos de 38 sujetos. Es para un sistema biométrico. Entonces quiero poder identificar sujetos. Para tener un conjunto de pruebas, sé que tengo que eliminar algunos valores. Entonces, ¿qué es mejor hacer y por...
Tengo una pregunta que creo que será bastante básica para muchos usuarios. Estoy usando modelos de regresión lineal para (i) investigar la relación de varias variables explicativas y mi variable de respuesta y (ii) predecir mi variable de respuesta usando las variables explicativas. Una variable...
En una configuración binomial, la variable aleatoria, X, que da el número de éxitos se distribuye binomialmente. La proporción de la muestra se puede calcular como dondenes el tamaño de su muestra. Mi libro de texto dice queXnorteXn\frac{X}{n}nortenn Esta proporción no tiene una distribución...
Sé que esto probablemente se haya discutido en otro lugar, pero no he podido encontrar una respuesta explícita. Estoy tratando de usar la fórmula R2= 1 - SSR / SSTR2=1-SSR/ /SSTR^2 = 1 - SSR/SST para calcular fuera de muestra R2R2R^2de un modelo de regresión lineal, donde SSRSSRSSR es la suma de...
Hasta donde he visto, las opiniones tienden a diferir sobre esto. La mejor práctica ciertamente dictaría el uso de validación cruzada (especialmente si se comparan RF con otros algoritmos en el mismo conjunto de datos). Por otro lado, la fuente original afirma que el hecho de que el error OOB se...
Este es solo un ejemplo que he encontrado varias veces, por lo que no tengo ningún dato de muestra. Ejecutar un modelo de regresión lineal en R: a.lm = lm(Y ~ x1 + x2) x1Es una variable continua. x2es categórico y tiene tres valores, por ejemplo, "Bajo", "Medio" y "Alto". Sin embargo, la salida...
Los métodos de conjunto basados en árboles como el Bosque aleatorio y las derivadas posteriores (por ejemplo, bosque condicional), todos pretenden ser útiles en los llamados problemas " n pequeña , p grande ", para identificar la importancia variable relativa. De hecho, este parece ser el caso,...
Estoy trabajando en un algoritmo que necesita calcular el tamaño de un conjunto generado por las intersecciones de al menos 2 conjuntos. Más específicamente: z= | UNA0 0∩ ... ∩ AnorteEl |z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Los conjuntos que se entrecruzan son generados por...