Estadísticas y Big Data

8

¿Puede un CDF de datos cruzarse con otro CDF?

Dados dos conjuntos de datos de números reales positivos X e Y, ambos del mismo tamaño, y 0 <= Y <= X para cada fila; ¿Puede el CDF empírico de X cruzar alguna vez el CDF empírico de

distributions cdf

8

¿Son realmente efectivos los datos desequilibrados de muestreo ascendente o descendente? ¿Por qué?

Con frecuencia escucho un muestreo ascendente o descendente de los datos discutidos como una forma de tratar con la clasificación de los datos desequilibrados. Entiendo que esto podría ser útil si está trabajando con un clasificador binario (en lugar de probabilístico o basado en puntajes) y lo...

classification roc unbalanced-classes

8

¿Por qué es importante la mezcla de anteriores conjugados?

Tengo una pregunta sobre la mezcla de anteriores conjugados. Aprendí y digo la mezcla de anteriores conjugados un par de veces cuando estoy aprendiendo bayesiano. Me pregunto por qué este teorema es tan importante, cómo lo aplicaremos cuando hagamos un análisis bayesiano. Para ser más específicos,...

bayesian conditional-probability hierarchical-bayesian conjugate-prior exponential-family

8

Modelado de tasas de mortalidad mediante regresión de Poisson

Estoy examinando las tendencias (entre 1998 y 2011) en las tasas de mortalidad entre pacientes con enfermedad de Crohn. Cada paciente (caso) se incluyó entre 1998 y 2011. En el momento de la inclusión, cada paciente se comparó con un control saludable con la misma edad y sexo. Estoy analizando las...

regression multiple-regression survival poisson-regression

8

¿Por qué querría arrancar al calcular una prueba t de muestra independiente? (cómo justificar, interpretar e informar una prueba t de arranque)

Digamos que tengo dos condiciones, y el tamaño de mi muestra para las dos condiciones es extremadamente bajo. Digamos que solo tengo 14 observaciones en la primera condición y 11 en la otra. Quiero usar la prueba t para probar si las diferencias de medias son significativamente diferentes entre...

confidence-interval t-test bootstrap normality-assumption reporting

8

Algoritmo de aprendizaje profundo

¿Cuál es la diferencia entre la red de creencias profundas y la red convexa profunda

machine-learning neural-networks deep-learning deep-belief-networks

8

Independencia lineal versus independencia estadística (PCA e ICA)

Estoy leyendo este interesante artículo sobre la aplicación de ICA a los datos de expresión génica. Los autores escriben: [T] aquí no hay ningún requisito para que los componentes de PCA sean estadísticamente independientes. Eso es cierto, pero las PC son ortogonales, ¿no es así? Estoy un...

pca independence ica

8

Distribuciones sesgadas para la regresión logística

He estado desarrollando un modelo de regresión logística basado en datos retrospectivos de una base de datos nacional de traumatismos de lesiones en la cabeza en el Reino Unido. El resultado clave es la mortalidad a los 30 días (indicada como Outcome30medida). Otras medidas en toda la base de datos...

r regression logistic splines

8

¿Cuáles son los temas de investigación más importantes para la tesis doctoral en bioestadística?

He estado pensando en elegir temas de investigación para la tesis doctoral en Bioestadística. Deseo conocer algunos temas importantes de investigación en los últimos años. Hasta donde yo sé, algunos temas de investigación importantes son: Análisis de datos de alta dimensión; inferencia causal en...

biostatistics careers phd

8

Convierta la razón de riesgos en odds ratio

En el metanálisis: ¿cómo convertimos las razones de riesgo en algunos estudios en odds ratio? Se deben incluir estudios de casos y controles de cohortes y algunos de ellos informan las razones de riesgo. Los datos sin procesar no se informan para calcular la razón de

meta-analysis

8

Términos de error vs innovaciones

Noté que a veces llamamos a los términos de error "innovaciones". No entiendo si esto es en situaciones especiales o si estos términos pueden usarse uno para el otro. Entonces, otra pregunta es "¿por qué llamamos a los términos de error" innovaciones "?

mathematical-statistics

8

Revisión de papel sobre filtro de partículas

Encontré en línea un borrador de un excelente artículo de revisión de Zhe Chen titulado "Filtrado bayesiano: de los filtros de Kalman a los filtros de partículas, y más allá". Según Google Scholar, la cita de la versión publicada es "Estadísticas 182 (1), 1-69, 2003", pero la revista que encuentro...

references particle-filter journals

8

Fórmula de Schuette-Nesbitt

Estaba leyendo el artículo sobre la fórmula de Schuette-Nesbitt , que se describe como "una generalización del principio de inclusión-exclusión" , que tiene versiones combinatorias y probabilísticas. Otro sitio web proporcionó una prueba de eventos dependientes (descarga en pdf) , y encontró un...

probability combinatorics

8

¿Calcular un percentil es lo mismo que evaluar una función de densidad acumulativa?

Estoy tratando de dar el salto desde la idea de un percentil, por ejemplo, sobre la recta numérica real (donde el enésimo percentil es simplemente la posición en la que n% de los puntos de datos están por debajo de él, y 100-n% están por encima de él ), a la idea del área bajo una función de...

distributions quantiles

8

Derivando el algoritmo K-means como límite de Maximización de Expectativas para Mezclas Gaussianas

Christopher Bishop define el valor esperado de la función de probabilidad de registro de datos completos (es decir, suponiendo que se nos dan tanto los datos observables X como los datos latentes Z) de la siguiente

self-study maximum-likelihood expected-value convergence expectation-maximization

8

Cálculo manual del valor p para la prueba t: cómo evitar valores mayores que

Estos dos métodos para calcular el valor p deberían ser equivalentes: t.test(rats.drug,mu=1.2)$p.value 2*pt((mean(rats.drug)-1.2)*sqrt(n)/sd(rats.drug),df=n-1) El problema con el segundo método es que existe el riesgo de obtener valores mayores que (de hecho, hasta

r t-test p-value

8

Trabajando con la muestra bootstrap vs la muestra original

Considere una muestra de números reales. Digamos que queremos estimar la tendencia central de la población y tener una idea de nuestra incertidumbre en torno a esta estimación. Pongamos a un lado las suposiciones sobre la distribución de la población por un momento, y consideremos los siguientes...

estimation bootstrap

8

¿Cuáles son algunas de las razones por las que los mínimos cuadrados reponderados iterativamente no convergerían cuando se usaran para la regresión logística?

He estado usando la función glm.fit en R para ajustar parámetros a un modelo de regresión logística. Por defecto, glm.fit utiliza mínimos cuadrados repesados de forma iterativa para ajustar los parámetros. ¿Cuáles son algunas razones por las cuales este algoritmo no podría converger, cuando se...

r logistic generalized-linear-model convergence irls

8

Visualización y sobreplotting: alternativa a los scatters

Tengo un gran conjunto de datos de países que están llenos (como puede ver a continuación), pero necesito las etiquetas y los valores atípicos: también tengo muchos gráficos, por lo que sería tedioso restablecer la ventana y agregar puntos de datos falsos para los atípicos. ¿Existe una buena...

data-visualization

8

Comparaciones múltiples con muchos grupos.

Me gustaría determinar si el uso de la prueba de comparaciones múltiples sería apropiado para mis datos. Utilicé la prueba de Kruskal-Wallis para determinar si había diferencias en la inhibición media entre grupos diferentes. El análisis reveló que había diferencias significativas y ahora me...

multiple-comparisons post-hoc kruskal-wallis dunn-test