Estadísticas y Big Data

14

¿Diferencia entre las máquinas de factorización y la factorización matricial?

Encontré el término Máquinas de factorización en sistemas de recomendación. Sé lo que es la factorización matricial para los sistemas de recomendación, pero nunca escuché hablar de las máquinas de factorización. Entonces, ¿cuál es la

machine-learning data-mining recommender-system

14

k-significa vs k-mediana?

Sé que hay un algoritmo de agrupación k-means y una mediana k. Uno que usa la media como el centro del grupo y el otro usa la mediana. Mi pregunta es: ¿cuándo / dónde usar

clustering k-means

14

Bandas de confianza para la línea QQ

Esta pregunta no pertenece específicamente R, pero elegí usarla Rpara ilustrarla. Considere el código para producir bandas de confianza alrededor de una línea qq (normal): library(car) library(MASS) b0<-lm(deaths~.,data=road) qqPlot(b0$resid,pch=16,line="robust") Estoy buscando una...

confidence-interval linear-model qq-plot

14

Bootstrap: la cuestión del sobreajuste

Supongamos que uno realiza la llamada rutina de arranque no paramétrica extrayendo muestras de tamaño cada una de las observaciones originales con reemplazo. Creo que este procedimiento es equivalente a estimar la función de distribución acumulativa por el cdf

bootstrap sample-size sample small-sample finite-population

14

¿Sesgo en la selección del jurado?

Un amigo representa a un cliente en una apelación, después de un juicio penal en el que parece que la selección del jurado fue racialmente parcial. El jurado estuvo formado por 30 personas, en 4 grupos raciales. La fiscalía utilizó desafíos perentorios para eliminar a 10 de estas personas del...

probability statistical-significance references bias combinatorics

14

Idoneidad de ANOVA después del análisis de conglomerados de k-medias

La notificación después de la tabla ANOVA después del análisis de K-medias indica que los niveles de significancia no deben considerarse como la prueba de medias iguales, ya que la solución de clúster se ha derivado en base a la distancia euclidiana para maximizar la distancia. ¿Qué prueba debo...

anova k-means

14

¿Cómo usar el Método Delta mientras la derivada de primer orden es cero?

http://en.wikipedia.org/wiki/Delta_method En el artículo de Wikipedia, se suponía que debe existir y que no tiene un valor cero. ¿Es posible encontrar la distribución asintótica para dado que podría ser cero y \ sqrt {n} (X_n- \ theta) \ stackrel {d} {\ rightarrow} N (0, \ sigma ^ 2) ?g ′ ( θ )...

delta-method

14

Jensen Shannon Divergence vs Kullback-Leibler Divergence?

Sé que KL Divergence no es simétrica y no puede considerarse estrictamente como una métrica. Si es así, ¿por qué se usa cuando JS Divergence satisface las propiedades requeridas para una métrica? ¿Hay escenarios en los que se puede utilizar la divergencia KL pero no la divergencia JS o...

probability distributions kullback-leibler metric

14

Teoría de respuesta al ítem versus análisis factorial confirmatorio

Me preguntaba cuáles son las diferencias centrales y significativas entre la teoría de respuesta al ítem y el análisis factorial confirmatorio. Entiendo que hay diferencias en los cálculos (centrándose más en el elemento frente a las covarianzas; log-lineal frente a lineal). Sin embargo, no tengo...

confirmatory-factor irt

14

¿Qué significa "invariante de permutación" en el contexto de redes neuronales que realizan reconocimiento de imágenes?

He visto una versión del término "invariante de permutación" de la tarea de reconocimiento de dígitos MNIST. Qué significa

machine-learning neural-networks terminology conv-neural-network definition

14

¿Qué son exactamente los datos censurados?

He leído diferentes descripciones de datos censurados: A) Como se explica en este hilo, los datos no cuantificados por debajo o por encima de cierto umbral están censurados. Sin cuantificar significa que los datos están por encima o por debajo de cierto umbral, pero no sabemos el valor exacto. Los...

regression terminology censoring

14

¿Support Vector Machine maneja un conjunto de datos desequilibrado?

¿SVM maneja el conjunto de datos desequilibrado? ¿Hay algún parámetro (como C o costo de clasificación errónea) que maneja el conjunto de datos

machine-learning svm unbalanced-classes

14

¿Hay alguna medida de 'uniformidad' de propagación?

Busqué en la web, pero no pude encontrar nada útil. Básicamente estoy buscando una manera de medir qué tan 'uniformemente' se distribuye un valor. Como en, una distribución distribuida 'uniformemente' como X : y una distribución distribuida 'desigualmente' Y de aproximadamente la misma media y...

variance standard-deviation descriptive-statistics measurement

14

¿Cuál es la diferencia entre la econometría de series temporales y la econometría de datos de panel?

Esta pregunta puede ser muy ingenua, pero la forma en que me enseñan econometría me confunde mucho si hay una diferencia entre las series de tiempo y el método de datos de panel. Con respecto a las series de tiempo, he cubierto temas como la covarianza estacionaria, AR, MA, etc. Con respecto a los...

time-series econometrics panel-data

14

Previsión de series de tiempo de Arima (auto.arima) con múltiples variables exógenas en R

Me gustaría realizar un pronóstico basado en un modelo ARIMA de series de tiempo múltiples con múltiples variables exógenas. Como no soy tan hábil con respecto a las estadísticas ni a RI que quiero mantener, es lo más simple posible (el pronóstico de tendencia para 3 meses es suficiente). Tengo 1...

r time-series arima

14

¿Cuáles son las diferencias entre AUC y F1-score?

La puntuación F1 es la media armónica de precisión y recuperación. El eje y de recuperación es una tasa positiva verdadera (que también es recuperación). Entonces, en ocasiones los clasificadores pueden tener un AUC bajo pero muy alto, ¿qué significa eso? ¿Cuáles son las diferencias entre AUC y...

machine-learning precision-recall auc accuracy

14

¿Por qué la definición de un estimador consistente es como es? ¿Qué pasa con las definiciones alternativas de consistencia?

Cita de wikipedia: En estadística, un estimador consistente o estimador asintóticamente consistente es un estimador, una regla para calcular las estimaciones de un parámetro la propiedad de que a medida que el número de puntos de datos utilizados aumenta indefinidamente, la secuencia resultante...

machine-learning mathematical-statistics consistency

14

Informar grados de libertad para la prueba t de Welch

La prueba t de Welch para variaciones desiguales (también conocida como Welch – Satterthwaite o Welch-Aspin) generalmente tiene grados de libertad no enteros . ¿Cómo deben citarse estos grados de libertad al informar los resultados de la prueba? "Es convencional redondear al número entero más...

t-test degrees-of-freedom reporting

14

¿Cómo se aplica el "Teorema fundamental del análisis factorial" a PCA, o cómo se definen las cargas de PCA?

Actualmente estoy pasando por un conjunto de diapositivas que tengo para el "análisis factorial" (PCA por lo que puedo decir). En él, se deriva el "teorema fundamental del análisis factorial" que afirma que la matriz de correlación de los datos que entran en el análisis ( ) se puede recuperar...

pca factor-analysis terminology definition

14

¿Cómo interpretar una curva ROC?

Apliqué la regresión logística a mis datos en SAS y aquí están la curva ROC y la tabla de clasificación. Me siento cómodo con las figuras en la tabla de clasificación, pero no estoy exactamente seguro de lo que muestran la curva roc y el área debajo de ella. Cualquier explicación sería muy...

regression logistic classification roc