Estadísticas y Big Data

8

¿Cómo obtener hiperparámetros óptimos después de la validación cruzada anidada?

En general, si tenemos un gran conjunto de datos, podemos dividirlo en (1) capacitación, (2) validación y (3) prueba. Utilizamos la validación para identificar los mejores hiperparámetros en la validación cruzada (por ejemplo, C en SVM) y luego entrenamos el modelo usando los mejores...

8

Intervalo de confianza para el pronóstico xgb

expertos! Tal vez, ¿sabes cómo calcular el intervalo de confianza para xgboost? La fórmula clásica con distribución t no puede ayudar, porque mis datos no se distribuyen normalmente. O no importa? Si sugiere algo de literatura, será muy útil, pero los enfoques en R y Python (en el contexto de la...

confidence-interval xgboost

8

Patrón extraño en la estimación del intervalo de confianza de la desviación estándar a través de bootstrapping

Quería estimar el intervalo de confianza para la desviación estándar de algunos datos. El código R se ve así: library(boot) sd_boot <- function (x, ind) { res <- sd(x$ReadyChange[ind], na.rm = TRUE) return(res) } data_boot <- boot::boot(data, statistic = sd_boot, R =...

r confidence-interval standard-deviation bootstrap

8

Conservar comentarios en gráficos para el análisis exploratorio de datos

Al realizar un análisis exploratorio de datos, a menudo imprimiré los gráficos y escribiré comentarios / anotaciones, etc. ¿Las personas tienen sugerencias para una mejor metodología electrónica? Estoy especialmente interesado en python / R. Estoy buscando algo 'rápido (y sucio)' que no ralentice...

data-visualization eda project-management

8

Covarianza en el proceso gaussiano

Estoy un poco confundido sobre la fórmula para calcular la covarianza en el proceso gaussiano (la adición de la varianza siempre me confunde, ya que no siempre se denota explícitamente). El origen de la confusión es que las fórmulas que se dan en Reconocimiento de patrones y Aprendizaje automático...

machine-learning covariance covariance-matrix kernel-trick gaussian-process

8

¿La tasa de error tipo I es alfa o como máximo alfa?

Según la página de Wikipedia de valor p : Cuando el valor p se calcula correctamente, esta prueba garantiza que la tasa de error Tipo I sea como máximo .αα\alpha Sin embargo, más abajo en la página se da esta fórmula: Pr(RejectH|H)=Pr(p≤α|H)=αPr(RejectH|H)=Pr(p≤α|H)=α\Pr(\mathrm{Reject}\;...

hypothesis-testing p-value type-i-and-ii-errors

8

¿Cómo informar un modelo lineal de efectos mixtos para aquellos que no están familiarizados y son escépticos?

Me he encontrado con este problema varias veces, y los revisores solicitan más justificación para el uso de LMM, pruebas tradicionales en lugar de LMM o además de ellas, y tablas completas de estimaciones de parámetros similares a lo que informaría con un modelo lineal regular. . En este momento,...

mixed-model lme4-nlme reporting

8

Beneficios de SVM como herramienta para el reconocimiento de dígitos

Soy bastante nuevo en el reconocimiento de dígitos, y he notado que muchos tutoriales usan la clasificación SVM, por

svm deep-learning k-means pattern-recognition image-processing

8

¿Cómo debería dibujarse este cuadro de la BBC (correlación Brexit entre educación y resultados)?

La BBC ha analizado más datos del referéndum Brexit; El primer gráfico en su artículo me llamó la atención: Parecía extraño dividir el eje x al 50%. ¿Seguramente esto debería haberse dividido en la mediana de los datos? (O la media si los datos se distribuyeron normalmente; pero entrecerrando...

data-visualization statistics-in-media

8

Precisión promedio en detección de objetos

Estoy bastante confundido en cuanto a cómo puedo calcular los valores AP o mAP, ya que parece haber bastantes métodos diferentes. Específicamente quiero obtener los valores AP / mAP para la detección de objetos. Todo lo que sé con certeza es: Recuperación = TP / (TP + FN), Precisión = TP / (TP +...

machine-learning precision-recall model-evaluation average-precision object-detection

8

¿Respuesta no paramétrica bayesiana al aprendizaje profundo?

Según tengo entendido, las redes neuronales profundas están realizando un "aprendizaje de representación" al unir entidades en capas. Esto permite aprender estructuras dimensionales muy altas en las características. Por supuesto, es un modelo paramétrico con un número fijo de parámetros, por lo que...

machine-learning bayesian nonparametric deep-learning

8

Expectativa condicional de una derivación de RV truncada, distribución de gumbel (diferencia logística)

Tengo dos variables aleatorias que son independientes e idénticamente distribuidas, es decir, :ϵ1,ϵ0∼iidGumbel(μ,β)ϵ1,ϵ0∼iidGumbel(μ,β)\epsilon_{1}, \epsilon_{0} \overset{\text{iid}}{\sim} \text{Gumbel}(\mu,\beta) F(ϵ)=exp(−exp(−ϵ−μβ)),F(ϵ)=exp⁡(−exp⁡(−ϵ−μβ)),F(\epsilon) =...

probability logistic conditional-probability conditional-expectation gumbel

8

Diferentes resultados después de la coincidencia de puntaje de propensión en R

He llevado a cabo el emparejamiento de puntaje de prospensión (en R usando el paquete R "Matchit"). Utilicé el método de coincidencia "vecino más cercano". Después de la comparación, comparé el tratamiento y el grupo de control en términos de su variable de resultado. Para esta comparación, utilicé...

k-nearest-neighbour matching propensity-scores

8

¿Cómo disuadir a los laicos de sacar conclusiones inexactas sobre sus datos?

Trabajo como analista de datos, principalmente en SQL, proporcionando datos de operaciones a clientes internos. Raramente hago análisis estadísticos. Recientemente, los clientes internos me han venido con datos de proyectos mal diseñados (sin grupo de control, sin metodología planificada, etc.) y...

multivariate-analysis assumptions accuracy

8

¿Cómo encontrar la probabilidad de domingos adicionales en un año bisiesto?

¿Cuál es la posibilidad de que un año bisiesto tenga 53 domingos? Según mi versión de prueba, ¿será 2/7? Dado que 366 días en un año bisiesto significa 52 semanas y 2 días más, por lo que de los dos días adicionales, la probabilidad del domingo es de 2/7. PD: Esta fue una pregunta que encontré en...

probability self-study

8

Codificación de características categóricas de alta cardinalidad (muchas categorías) cuando las características difieren mucho de la cardinalidad

He estado buscando preguntas sobre la codificación de características categóricas, pero no pude encontrar ninguna que discuta mi problema. Disculpas si me lo perdí. Digamos que tenemos un conjunto de datos con variables binarias y nominales de aproximadamente igual importancia cada una. La...

classification categorical-data dimensionality-reduction feature-construction many-categories

8

diagrama de caja en R: ¿Cuentan los valores atípicos cuando se determinan los cuantiles?

Tengo un conjunto de datos de 1 dimensión y uso la boxplotfunción para hacer un diagrama de caja. Entonces puedo ver que tengo algunos valores atípicos. ¿Cuentan los valores atípicos cuando se determinan los cuantiles? ¿Hay una forma correcta / incorrecta o ambas son correctas siempre que...

r data-visualization boxplot

8

Tercer momento central de una suma de un número aleatorio de variables aleatorias iid

Inspirado por esta pregunta , traté de obtener una expresión para el tercer momento central de una suma de un número aleatorio de variables aleatorias iid. Mi pregunta es si es correcta y, si no, qué está mal o qué supuestos adicionales podrían faltar. Específicamente,

random-variable moments

8

¿Qué es exactamente la "selección de modelo por pasos"?

Aunque los méritos de la selección de modelos por pasos se han discutido anteriormente, no me queda claro qué es exactamente " selección de modelos por pasos " o " regresión por pasos ". Pensé que lo entendía, pero ya no estoy tan seguro. Entiendo que estos dos términos son sinónimos (al menos en...

multiple-regression model-selection aic stepwise-regression

8

Detección de anomalías en series temporales

Soy un principiante que usa el aprendizaje automático (terminé el curso de Ng), estoy usando scikit-learn en python. Quiero encontrar la mejor manera de detectar anomalías en nuestro sistema. Tenemos eventos en curso que ocurren en un horario (cada pocos minutos / horas), y quiero detectar cuándo...

time-series python scikit-learn anomaly-detection