Estadísticas y Big Data

13

Ajuste de hiperparámetros en la regresión del proceso gaussiano

KKij=k(xi,xj)=b-1exp(-1Iniciar sesión( y | X, θ ) = - 12yTK- 1yy - 12Iniciar sesión( det ( K) ) - n2Iniciar sesión( 2 π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2}

13

¿Cuál es la diferencia entre la interpretación de la curva GINI y AUC?

solíamos crear una curva GINI usando la elevación creada con la ayuda del porcentaje de buenos y malos para el modelado de cuadros de mando. Pero lo que he estudiado es que la curva ROC se crea utilizando la matriz de confusión con especificidad (1- Verdadero negativo) como eje xy sensibilidad...

roc gini

13

¿El ajuste del modelo de Cox con estratos y la interacción entre estratos y covariables difiere del ajuste de dos modelos de Cox?

En Regression Modeling Strategies de Harrell (segunda edición) hay una sección (S. 20.1.7) que discute los modelos de Cox, incluida una interacción entre una covariable cuyo principal efecto sobre la supervivencia queremos estimar también (edad en el ejemplo a continuación) y un covariable cuyo...

survival cox-model stratification

13

¿Qué es una estadística F parcial?

¿Qué es una estadística F parcial? ¿Es eso lo mismo que la prueba F parcial? ¿Cuándo calcularías una estadística F parcial? Supongo que esto tiene algo que ver con la comparación de modelos de regresión, pero no estoy siguiendo algo

regression multiple-regression

13

Cómo puedo convertir la distancia (Euclidiana) a puntaje de similitud

Estoy usando kkk significa agrupamiento para agrupar las voces de los hablantes. Cuando comparo un enunciado con datos de altavoces agrupados obtengo una distorsión promedio (basada en la distancia euclidiana). Esta distancia puede estar en el rango de [0,∞][0,∞][0,\infty] . Quiero convertir esta...

clustering k-means distance euclidean

13

Cómo entrenar la capa LSTM de red profunda

Estoy usando una red lstm y feed-forward para clasificar el texto. Convierto el texto en vectores únicos y los introduzco en el lstm para poder resumirlo como una representación única. Luego lo alimento a la otra red. ¿Pero cómo entreno el lstm? Solo quiero clasificar en secuencia el texto,...

classification neural-networks deep-learning lstm

13

¿Qué son los componentes principales "rotados" y "no rotados", dado que PCA siempre rota los ejes de coordenadas?

Hasta donde entiendo, los componentes principales se obtienen al rotar los ejes de coordenadas para alinearlos con las direcciones de máxima varianza. Sin embargo, sigo leyendo sobre "componentes principales no rotados" y mi software de estadísticas (SAS) me da componentes principales rotados...

pca terminology factor-rotation

13

¿Cómo utilizan exactamente las redes neuronales convolucionales la convolución en lugar de la multiplicación de matrices?

Estaba leyendo el libro de Yoshua Bengio sobre aprendizaje profundo y dice en la página 224: Las redes convolucionales son simplemente redes neuronales que usan la convolución en lugar de la multiplicación matricial general en al menos una de sus capas. sin embargo, no estaba 100% seguro de...

machine-learning neural-networks deep-learning convolution

13

Reducción supervisada de dimensionalidad

Tengo un conjunto de datos que consta de 15 K muestras etiquetadas (de 10 grupos). Quiero aplicar la reducción de dimensionalidad en 2 dimensiones, eso tomaría en consideración el conocimiento de las etiquetas. Cuando uso técnicas de reducción de dimensionalidad no supervisadas "estándar" como...

machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis

13

Resultados teóricos detrás de las redes neuronales artificiales

Acabo de cubrir Redes Neuronales Artificiales en el curso de Aprendizaje Automático de Coursera y me gustaría saber más teoría detrás de ellos. La motivación de que imitan la biología me parece un tanto insatisfactoria. En la superficie, parece que en cada nivel reemplazamos las covariables con...

machine-learning neural-networks theory

13

¿Cómo debo verificar la suposición de linealidad al logit para las variables independientes continuas en el análisis de regresión logística?

Estoy confundido con la suposición de linealidad al logit para las variables predictoras continuas en el análisis de regresión logística. ¿Necesitamos verificar la relación lineal mientras buscamos predictores potenciales usando un análisis de regresión logística univariable? En mi caso, estoy...

regression logistic assumptions splines regression-strategies

13

Centrar y escalar variables ficticias

Tengo un conjunto de datos que contiene variables categóricas y variables continuas. Se me aconsejó transformar las variables categóricas como variables binarias para cada nivel (es decir, A_level1: {0,1}, A_level2: {0,1}). Creo que algunos han llamado a esto "variables ficticias". Dicho esto,...

categorical-data data-transformation centering

13

¿Qué tipo de gráfico es este?

Perdón por la vaga pregunta, pero este gráfico aparece en Biddle et al. 2009 y no he encontrado nada igual antes. Es un gráfico de barras con bordes biselados, a veces 'cuernos'. ¿Qué significan estos? ¿Este tipo de gráfico tiene un nombre? Según /meta/244083/site-for-asking-about-charts , pensé...

data-visualization boxplot

13

¿Es incorrecto referirse a los resultados como "casi" o "algo" significativo?

El consenso general sobre una pregunta similar, ¿es incorrecto referirse a los resultados como "altamente significativos"? es que "altamente significativo" es una forma válida, aunque no específica, de describir la fuerza de una asociación que tiene un valor p muy por debajo de su umbral de...

hypothesis-testing statistical-significance p-value terminology

13

Regresión lineal: ¿alguna distribución no normal que proporcione identidad de OLS y MLE?

Esta pregunta está inspirada en la larga discusión en los comentarios aquí: ¿Cómo usa la regresión lineal la distribución normal? En el modelo de regresión lineal habitual, para simplificar aquí escrito con un solo predictor: Yi=β0+β1xi+ϵiYi=β0+β1xi+ϵi Y_i = \beta_0 + \beta_1 x_i + \epsilon_i...

regression normal-distribution mathematical-statistics maximum-likelihood least-squares

13

Definición y delimitación del modelo de regresión.

Una pregunta vergonzosamente simple, pero parece que no se ha hecho antes en Cross Validated: ¿Cuál es la definición de un modelo de regresión? También una pregunta de soporte, ¿Qué no es un modelo de regresión? Con respecto a esto último, estoy interesado en ejemplos difíciles donde la...

regression linear-model model terminology definition

13

¿Un ejemplo de un estimador consistente y sesgado?

Realmente perplejo en este caso. Realmente me gustaría un ejemplo o una situación en la que un estimador B sea a la vez consistente y

mathematical-statistics estimation econometrics

13

Fórmula para el intervalo de confianza del 95% para

Busqué en Google y busqué en stats.stackexchange pero no puedo encontrar la fórmula para calcular un intervalo de confianza del 95% para un valor para una regresión lineal. ¿Alguien puede proporcionarlo?R2R2R^2 Aún mejor, digamos que había corrido la regresión lineal a continuación en R. ¿Cómo...

r regression confidence-interval inference r-squared

13

¿Cómo calcular el valor esperado de una distribución normal estándar?

Me gustaría aprender a calcular el valor esperado de una variable aleatoria continua. Parece que el valor esperado es donde es la función de densidad de probabilidad de .f ( x ) XE[X]=∫∞−∞xf(x)dxE[X]=∫−∞∞xf(x)dxE[X] = \int_{-\infty}^{\infty} xf(x)\mathrm{d}xf(x)f(x)f(x)XXX Suponga que la función...

random-variable pdf expected-value

13

¿Mejores prácticas para codificar características categóricas para árboles de decisión?

Al codificar características categóricas para la regresión lineal, hay una regla: el número de dummies debe ser uno menos que el número total de niveles (para evitar la colinealidad). ¿Existe una regla similar para los árboles de decisión (en bolsas, potenciados)? Pregunto esto porque una...

categorical-data random-forest cart boosting