Estadísticas y Big Data

32

Como todos saben, SVM puede usar el método del núcleo para proyectar puntos de datos en espacios más altos de modo que los puntos se puedan separar por un espacio lineal. Pero también podemos usar la regresión logística para elegir este límite en el espacio del núcleo, entonces, ¿cuáles son las...

svm

32

Comparar dos modelos usando la función anova () en R

De la documentación para anova(): Cuando se le da una secuencia de objetos, 'anova' prueba los modelos uno contra el otro en el orden especificado ... ¿Qué significa probar los modelos uno contra el otro? ¿Y por qué importa el orden? Aquí hay un ejemplo del tutorial de GenABEL : >...

r anova

32

¿Es posible encontrar la desviación estándar combinada?

Supongamos que tengo 2 juegos: Conjunto A : número de elementos , μ = 2.4 , σ = 0.8n = 10n=10n= 10μ = 2.4μ=2.4\mu = 2.4σ= 0.8σ=0.8\sigma = 0.8 Conjunto B : número de elementos , μ = 2 , σ = 1.2n = 5n=5n= 5μ = 2μ=2\mu = 2σ= 1.2σ=1.2\sigma = 1.2 Puedo encontrar la media combinada ( ) fácilmente,...

standard-deviation

32

Detección de anomalías de enlace en la red temporal

Me encontré con este documento que usa la detección de anomalías de enlaces para predecir temas de tendencias, y lo encontré increíblemente intrigante: el documento es "Descubriendo temas emergentes en las corrientes sociales a través de la detección de anomalías de enlaces" . Me encantaría...

time-series machine-learning outliers python change-point

32

PCA en correlación o covarianza: ¿tiene sentido PCA en correlación? [cerrado]

En el análisis de componentes principales (PCA), uno puede elegir la matriz de covarianza o la matriz de correlación para encontrar los componentes (de sus respectivos vectores propios). Estos dan resultados diferentes (cargas de PC y puntajes), porque los vectores propios entre ambas matrices no...

pca factor-analysis

32

¿Por qué se maximiza la entropía cuando la distribución de probabilidad es uniforme?

Sé que la entropía es la medida de aleatoriedad de un proceso / variable y se puede definir de la siguiente manera. para una variable aleatoria conjunto : - . En el libro sobre entropía y teoría de la información de MacKay, él proporciona esta declaración en Ch2X∈X∈X

uniform entropy maximum-entropy

32

Conjuntos de datos construidos para un propósito similar al del cuarteto de Anscombe

Acabo de encontrar el cuarteto de Anscombe (cuatro conjuntos de datos que tienen estadísticas descriptivas casi indistinguibles pero se ven muy diferentes cuando se trazan) y tengo curiosidad por saber si hay otros conjuntos de datos más o menos conocidos que se hayan creado para demostrar la...

regression data-visualization dataset

32

Pautas de AIC en la selección del modelo

Normalmente uso BIC porque entiendo que valora más la parsimonia que AIC. Sin embargo, he decidido utilizar un enfoque más completo ahora y me gustaría utilizar AIC también. Sé que Raftery (1995) presentó buenas pautas para las diferencias BIC: 0-2 es débil, 2-4 es evidencia positiva de que un...

r model-selection references aic bic

32

¿Cuál sería un modelo bayesiano robusto para estimar la escala de una distribución más o menos normal?

Existe una serie de estimadores robustos de escala . Un ejemplo notable es la mediana de la desviación absoluta que se relaciona con la desviación estándar como σ= M A D ⋅ 1.4826σ=METROUNAre⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 . En un marco bayesiano, existen varias formas de estimar de manera...

r bayesian estimation standard-deviation robust

32

¿Existe una versión de muestra de la desigualdad unilateral de Chebyshev?

Estoy interesado en la siguiente versión unilateral de Cantelli de la desigualdad de Chebyshev : P ( X- E ( X) ≥ t ) ≤ V a r ( X)V a r (X) + t2.PAGS(X-mi(X)≥t)≤Vunar(X)Vunar(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Básicamente, si conoce...

probability mathematical-statistics probability-inequalities mean

32

¿Cómo calcular el error relativo cuando el valor verdadero es cero?

¿Cómo calculo el error relativo cuando el valor verdadero es cero? Digamos que tengo xtrue=0xtrue=0x_{true} = 0 y . Si defino error relativo como:xtestxtestx_{test} relative error=xtrue−xtestxtruerelative error=xtrue−xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} Entonces...

error measurement-error

32

¿Por qué las encuestas políticas tienen muestras tan grandes?

Cuando veo las noticias, me doy cuenta de que las encuestas de Gallup para cosas como las elecciones presidenciales tienen tamaños de muestra [supongo al azar] de más de 1,000. De lo que recuerdo de las estadísticas de la universidad fue que un tamaño de muestra de 30 era una muestra...

sampling sample-size power-analysis

32

¿Es posible cambiar una hipótesis para que coincida con los datos observados (también conocido como expedición de pesca) y evitar un aumento en los errores de Tipo I?

Es bien sabido que los investigadores deberían pasar tiempo observando y explorando los datos e investigaciones existentes antes de formar una hipótesis y luego recolectar datos para probar esa hipótesis (refiriéndose a la prueba de significación de hipótesis nula). Muchos libros de estadísticas...

hypothesis-testing

32

¿Por qué la inversión de una matriz de covarianza produce correlaciones parciales entre variables aleatorias?

Escuché que se pueden encontrar correlaciones parciales entre variables aleatorias invirtiendo la matriz de covarianza y tomando celdas apropiadas de dicha matriz de precisión resultante (este hecho se menciona en http://en.wikipedia.org/wiki/Partial_correlation , pero sin una prueba) . ¿Por qué...

covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

32

¿Las variables altamente correlacionadas en el bosque aleatorio distorsionan la precisión y la selección de características?

En mi opinión, las variables altamente correlacionadas no causarán problemas de multicolinealidad en el modelo de bosque aleatorio (corríjame si me equivoco). Sin embargo, por otro lado, si tengo demasiadas variables que contienen información similar, ¿el modelo pesará demasiado en este conjunto en...

random-forest multicollinearity ensemble

32

Regresión logística: Bernoulli vs. Variables de respuesta binomial

Quiero realizar una regresión logística con la siguiente respuesta binomial y con y como mis predictores. X1X1X_1X2X2X_2 Puedo presentar los mismos datos que las respuestas de Bernoulli en el siguiente formato. Las salidas de regresión logística para estos 2 conjuntos de datos son en su...

logistic binomial aic bernoulli-distribution deviance

32

¿Por qué hay dos deletreos de "heteroscedastic" o "heteroscedastic"?

Frecuentemente veo los deletreos "heteroscedastic" y "heteroscedastic", y de manera similar para "homoscedastic" y "homoskedastic". Parece que no hay diferencia de significado entre las variantes "c" y "k", simplemente una diferencia ortográfica relacionada con la etimología griega de la...

terminology heteroscedasticity etymology

32

Función de costo en regresión lineal de MCO

Estoy un poco confundido con una conferencia sobre regresión lineal dada por Andrew Ng en Coursera sobre el aprendizaje automático. Allí, le dio una función de costo que minimiza la suma de cuadrados como: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m...

regression machine-learning loss-functions

32

¿Cómo ayudaría PCA con un análisis de agrupamiento de k-means?

Antecedentes : quiero clasificar las áreas residenciales de una ciudad en grupos en función de sus características socioeconómicas, incluida la densidad de unidades de vivienda, la densidad de población, el área de espacios verdes, el precio de la vivienda, el número de escuelas / centros de salud...

clustering pca k-means dimensionality-reduction

32

¿Es el valor p una estimación puntual?

Dado que uno puede calcular los intervalos de confianza para los valores p y dado que lo opuesto a la estimación del intervalo es la estimación puntual: ¿es el valor p una estimación

confidence-interval estimation p-value estimators point-estimation