Preguntas etiquetadas con sample

13

¿Usando la longitud media y el peso medio para calcular el IMC medio?

¿Es válido usar la longitud media ( hhh ) y el peso medio ( www ) de una población dada para calcular el índice de masa corporal promedio ( BMI=wh2BMI=wh2BMI = \frac{w}{h^2} ) para esa

mean sample population

12

ANOVA: prueba de suposición de normalidad para muchos grupos con pocas muestras por grupo

Suponga la siguiente situación: tenemos un gran número (por ejemplo, 20) con grupos pequeños (por ejemplo, n = 3). Noté que si genero valores a partir de la distribución uniforme, los residuos se verán aproximadamente normales a pesar de que la distribución del error es uniforme. El siguiente...

anova normal-distribution small-sample

12

Cómo tomar muchas muestras de 10 de una lista grande, sin reemplazo general

Tengo un gran conjunto de datos (20,000 puntos de datos), de los cuales quiero tomar muestras repetidas de 10 puntos de datos. Sin embargo, una vez que haya elegido esos 10 puntos de datos, quiero que no se vuelvan a seleccionar. Intenté usar la samplefunción, pero no parece tener una opción para...

r sample

12

-tests vs -tests?

Estoy tratando de averiguar exactamente cuál es la diferencia entre las pruebas y las pruebas .tttzzz Por lo que puedo decir, para ambas clases de pruebas uno usa la misma estadística de prueba, algo de la forma b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} donde...

hypothesis-testing t-test small-sample

12

Diferencia entre pronósticos "en muestra" y "pseudo fuera de muestra"

¿Existe una diferencia explícita entre los pronósticos dentro de la muestra y los pronósticos seudo fuera de la muestra ? Ambos se entienden en el contexto de evaluar y comparar modelos de

forecasting model-comparison out-of-sample in-sample

12

¿Por qué no se utiliza el método de retención (división de datos en capacitación y pruebas) en las estadísticas clásicas?

En mi exposición en el aula a la minería de datos, el método de retención se introdujo como una forma de evaluar el rendimiento del modelo. Sin embargo, cuando tomé mi primera clase de modelos lineales, esto no se introdujo como un medio de validación o evaluación del modelo. Mi investigación en...

regression validation model-evaluation out-of-sample

12

¿Las competiciones de Kaggle se ganan por casualidad?

Las competiciones de Kaggle determinan las clasificaciones finales en función de un conjunto de pruebas extendido. Un conjunto de prueba extendido es una muestra; puede no ser representativo de la población que se está modelando. Dado que cada presentación es como una hipótesis, el algoritmo que...

machine-learning probability hypothesis-testing sample kaggle

11

Si no es un Poisson, entonces, ¿qué distribución es esta?

Tengo un conjunto de datos que contiene la cantidad de acciones realizadas por individuos en el transcurso de 7 días. La acción específica no debería ser relevante para esta pregunta. Aquí hay algunas estadísticas descriptivas para el conjunto de datos: RangoMediaDiferenciaNumero de observaciones0...

r distributions poisson-distribution mean sample

11

Ajuste de modelos multinivel a datos de encuestas complejas en R

Estoy buscando consejos sobre cómo analizar datos de encuestas complejas con modelos multinivel en R. He usado el surveypaquete para ponderar las probabilidades desiguales de selección en modelos de un nivel, pero este paquete no tiene funciones para el modelado multinivel. El lme4paquete es...

r mixed-model weighted-sampling cluster-sample

11

Estime la varianza de una población si se conoce la media de la población

Sé que usamos para estimar la varianza de una población. Recuerdo un video de Khan Academy donde la intuición dada era que nuestra media estimada probablemente esté un poco fuera de la real, por lo que las distancias realidad serían mayores, por lo que dividimos por menos ( lugar de ) para obtener...

variance sample

11

¿La aleatorización es confiable con muestras pequeñas?

Jerome Cornfield ha escrito: Uno de los mejores frutos de la revolución de los pescadores fue la idea de la aleatorización, y los estadísticos que están de acuerdo en algunas otras cosas al menos han estado de acuerdo en esto. Pero a pesar de este acuerdo y del uso generalizado de los...

small-sample random-allocation

11

¿SurveyMonkey ignora el hecho de que obtiene una muestra no aleatoria?

SurveyMonkey tiene pasos y una tabla para que pueda determinar qué tamaño de muestra necesita para un margen de error o intervalo de confianza dado, en función del tamaño de su población. Tamaño de muestra de SurveyMonkey ¿Este gráfico simplemente ignora el hecho de que no obtendrá una muestra...

confidence-interval sample-size survey sample

11

¿Cuál es la forma más adecuada de crear un conjunto de espera: eliminar algunos sujetos o eliminar algunas observaciones de cada sujeto?

Tengo un conjunto de datos con 26 características y 31000 filas. Es el conjunto de datos de 38 sujetos. Es para un sistema biométrico. Entonces quiero poder identificar sujetos. Para tener un conjunto de pruebas, sé que tengo que eliminar algunos valores. Entonces, ¿qué es mejor hacer y por...

machine-learning cross-validation out-of-sample

10

Una '' variable significativa '' que no mejora las predicciones fuera de muestra: ¿cómo interpretar?

Tengo una pregunta que creo que será bastante básica para muchos usuarios. Estoy usando modelos de regresión lineal para (i) investigar la relación de varias variables explicativas y mi variable de respuesta y (ii) predecir mi variable de respuesta usando las variables explicativas. Una variable...

statistical-significance predictive-models p-value prediction out-of-sample

10

¿Por qué una proporción de muestra tampoco tiene una distribución binomial?

En una configuración binomial, la variable aleatoria, X, que da el número de éxitos se distribuye binomialmente. La proporción de la muestra se puede calcular como dondenes el tamaño de su muestra. Mi libro de texto dice queXnorteXn\frac{X}{n}nortenn Esta proporción no tiene una distribución...

distributions binomial proportion sample

10

¿Cómo calcular fuera de la muestra R al cuadrado?

Sé que esto probablemente se haya discutido en otro lugar, pero no he podido encontrar una respuesta explícita. Estoy tratando de usar la fórmula R2= 1 - SSR / SSTR2=1-SSR/ /SSTR^2 = 1 - SSR/SST para calcular fuera de muestra R2R2R^2de un modelo de regresión lineal, donde SSRSSRSSR es la suma de...

regression machine-learning r-squared out-of-sample

10

¿El modelado con bosques aleatorios requiere validación cruzada?

Hasta donde he visto, las opiniones tienden a diferir sobre esto. La mejor práctica ciertamente dictaría el uso de validación cruzada (especialmente si se comparan RF con otros algoritmos en el mismo conjunto de datos). Por otro lado, la fuente original afirma que el hecho de que el error OOB se...

cross-validation random-forest overfitting out-of-sample

10

R regresión lineal variable categórica valor "oculto"

Este es solo un ejemplo que he encontrado varias veces, por lo que no tengo ningún dato de muestra. Ejecutar un modelo de regresión lineal en R: a.lm = lm(Y ~ x1 + x2) x1Es una variable continua. x2es categórico y tiene tres valores, por ejemplo, "Bajo", "Medio" y "Alto". Sin embargo, la salida...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

¿Límites a los métodos de conjunto basados en árboles en pequeños n, grandes p problemas?

Los métodos de conjunto basados en árboles como el Bosque aleatorio y las derivadas posteriores (por ejemplo, bosque condicional), todos pretenden ser útiles en los llamados problemas " n pequeña , p grande ", para identificar la importancia variable relativa. De hecho, este parece ser el caso,...

random-forest small-sample ensemble

10

Estimando el tamaño de una intersección de conjuntos múltiples usando una muestra de un conjunto

error sample