Estadísticas y Big Data

15

Estoy tratando de usar Regresión forestal aleatoria en scikits-learn. El problema es que recibo un error de prueba muy alto: train MSE, 4.64, test MSE: 252.25. Así es como se ven mis datos: (azul: datos reales, verde: predicho): Estoy usando 90% para entrenamiento y 10% para prueba. Este es el...

regression random-forest scikit-learn

15

¿Por qué usar una determinada medida de error de pronóstico (por ejemplo, MAD) en lugar de otra (por ejemplo, MSE)?

MAD = Desviación absoluta media MSE = Error cuadrado medio He visto sugerencias de varios lugares sobre el uso de MSE a pesar de algunas cualidades indeseables (por ejemplo , http://www.stat.nus.edu.sg/~staxyc/T12.pdf , que establece en p8 "Se cree comúnmente que MAD es un criterio mejor que MSE....

forecasting error mse mae

15

¿Por qué estabilizamos la varianza?

Encontré la transformación de estabilización de varianza mientras leía el método Kaggle Essay Eval . Utilizan una transformación de estabilización de varianza para transformar los valores de kappa antes de tomar su media y luego transformarlos nuevamente. Incluso después de leer el wiki sobre...

variance mathematical-statistics

15

Significado de los términos de salida en el paquete gbm

Estoy usando el paquete gbm para la clasificación. Como se esperaba, los resultados son buenos. Pero estoy tratando de entender la salida del clasificador. Hay cinco términos en la salida. `Iter TrainDeviance ValidDeviance StepSize Improve` ¿Alguien podría explicar el significado de cada término,...

r machine-learning

15

Transforme los datos a la media deseada y la desviación estándar

Estoy buscando un método para transformar mi conjunto de datos de su media actual y desviación estándar a una media objetivo y una desviación estándar objetivo. Básicamente, quiero reducir / expandir la dispersión y escalar todos los números a una media. No funciona hacer dos transformaciones...

data-transformation standard-deviation mean

15

Especificar una estructura de covarianza: pros y contras

¿Cuáles son los beneficios de especificar una estructura de covarianza en un GLM (en lugar de tratar todas las entradas fuera de la diagonal en la matriz de covarianza como cero)? Además de reflejar lo que uno sabe de los datos, ¿lo hace? mejorar la bondad de ajuste? mejorar la precisión...

generalized-linear-model covariance

15

¿La función logit es siempre la mejor para el modelado de regresión de datos binarios?

He estado pensando en este problema. La función logística habitual para modelar datos binarios es: Sin embargo, ¿es la función logit, que es una curva en forma de S, siempre la mejor para modelar los datos? Tal vez tenga razones para creer que sus datos no siguen la curva en forma de S normal...

logistic references link-function

15

Parámetros de estimación de una distribución normal: ¿mediana en lugar de media?

El enfoque común para estimar los parámetros de una distribución normal es usar la media y la desviación / varianza estándar de la muestra. Sin embargo, si hay algunos valores atípicos, la mediana y la desviación media de la mediana deberían ser mucho más robustas, ¿verdad? En algunos conjuntos...

normal-distribution estimation outliers robust unbiased-estimator

15

¿Cómo estimar el proceso de Poisson usando R? (O: ¿cómo usar el paquete NHPoisson?)

Tengo una base de datos de eventos (es decir, una variable de fechas) y covariables asociadas. Los eventos son generados por el proceso no estacionario de Poisson con parámetros que son una función desconocida (pero posiblemente lineal) de algunas covariables. Creo que el paquete NHPoisson existe...

r poisson-distribution poisson-process

15

¿Cómo calcula ggplot los intervalos de confianza para las regresiones?

El paquete de trazado R ggplot2 tiene una función asombrosa llamada stat_smooth para trazar una línea (o curva) de regresión con la banda de confianza asociada. Sin embargo, estoy teniendo dificultades para averiguar exactamente cómo se genera esta banda de confianza, para cada línea de regresión...

r regression confidence-interval ggplot2

15

¿Puedo convertir una matriz de covarianza en incertidumbres para las variables?

Tengo una unidad GPS que genera una medición de ruido a través de la matriz de covarianza :ΣΣ\Sigma Σ=⎡⎣⎢σxxσyxσxzσxyσyyσyzσxzσyzσzz⎤⎦⎥Σ=[σxxσxyσxzσyxσyyσyzσxzσyzσzz]\Sigma = \left[\begin{matrix} \sigma_{xx} & \sigma_{xy} & \sigma_{xz} \\ \sigma_{yx} & \sigma_{yy} & \sigma_{yz} \\ \sigma_{xz} &...

covariance measurement-error uncertainty

15

Estimación de la distribución posterior de covarianza de un gaussiano multivariante

Necesito "aprender" la distribución de un gaussiano bivariado con pocas muestras, pero una buena hipótesis sobre la distribución anterior, por lo que me gustaría utilizar el enfoque bayesiano. Definí mi anterior: P(μ)∼N(μ0,Σ0)P(μ)∼N(μ0,Σ0) \mathbf{P}(\mathbf{\mu}) \sim...

distributions bayesian estimation covariance posterior

15

Comparación de listas clasificadas

Supongamos que dos grupos, que comprende n1n1n_1 y n2n2n_2 cada rango de un conjunto de 25 elementos de más a menos importante. ¿Cuáles son las mejores formas de comparar estas clasificaciones? Claramente, es posible hacer 25 pruebas U de Mann-Whitney, pero esto daría como resultado 25 resultados...

ranking group-differences

15

¿Qué métodos estadísticos son arcaicos y deberían omitirse de los libros de texto? [cerrado]

Tal como está actualmente, esta pregunta no es adecuada para nuestro formato de preguntas y respuestas. Esperamos que las respuestas estén respaldadas por hechos, referencias o experiencia, pero esta pregunta probablemente solicitará debate, argumentos, encuestas o discusión

references history

15

¿Por qué R cuadrado ajustado es menor que R cuadrado si R cuadrado ajustado predice mejor el modelo?

Hasta donde yo entiendo, explica qué tan bien el modelo predice la observación. R 2 ajustado es el que tiene en cuenta más observaciones (o grados de libertad). Entonces, ¿ R 2 ajustado predice mejor el modelo? Entonces, ¿por qué es esto menor que R 2?R2R2R^2R2R2R^2R2R2R^2R2R2R^2 ? Parece que a...

regression r-squared

15

Análisis de correlación canónica con correlación de rango

El análisis de correlación canónica (CCA) tiene como objetivo maximizar la correlación habitual del momento del producto de Pearson (es decir, el coeficiente de correlación lineal) de las combinaciones lineales de los dos conjuntos de datos. Ahora, considere el hecho de que este coeficiente de...

multivariate-analysis data-transformation spearman-rho kendall-tau canonical-correlation

15

Modelo de Cox vs regresión logística

Digamos que tenemos el siguiente problema: Predecir qué clientes tienen más probabilidades de dejar de comprar en nuestra tienda en los próximos 3 meses. Para cada cliente, sabemos el mes en que uno comenzó a comprar en nuestra tienda y, además, tenemos muchas características de comportamiento...

logistic survival cox-model

15

Diferencia entre prueba de aleatorización y prueba de permutación

En la literatura, los términos aleatorización y permutación se usan indistintamente. Con muchos autores declarando "Pruebas de permutación (también conocida como aleatorización)", o viceversa. En el mejor de los casos, creo que la diferencia es sutil, y radica en sus suposiciones sobre los datos y...

hypothesis-testing sampling terminology permutation-test

15

¿Se puede traducir Hazard Ratio en una relación de medianas del tiempo de supervivencia?

En un artículo que describe los resultados del análisis de supervivencia, he leído una declaración que implica que uno puede traducir la razón de riesgo (HR) en la razón de los tiempos de supervivencia promedio ( y M 2 ) usando la fórmula:M1M1M_1M2M2M_2 HR=M1M2HR=M1M2HR = \frac{M_1}{M_2} Estoy...

survival hazard

15

Predicción de series temporales con datos diarios: ARIMA con regresor

Estoy usando una serie temporal diaria de datos de ventas que contiene aproximadamente 2 años de puntos de datos diarios. Basado en algunos de los tutoriales / ejemplos en línea, traté de identificar la estacionalidad en los datos. Parece que hay una periodicidad / estacionalidad semanal, mensual y...

r time-series forecasting arima multiple-seasonalities