Estadísticas y Big Data

18
Clasificación de texto a gran escala

Estoy buscando hacer una clasificación en mis datos de texto. Tengo 300 classes200 documentos de capacitación por clase (más o menos 60000 documents in total) y es probable que esto genere datos dimensionales muy altos (es posible que estemos buscando más de 1 millón de dimensiones ). Me gustaría...

18
Intervalo de confianza estrecho: ¿mayor precisión?

Tengo dos preguntas sobre los intervalos de confianza: Aparentemente, un intervalo de confianza estrecho implica que hay una menor posibilidad de obtener una observación dentro de ese intervalo, por lo tanto, nuestra precisión es mayor. Además, un intervalo de confianza del 95% es más estrecho...

18
Paseo aleatorio con impulso

Considere una caminata aleatoria entera que comienza en 0 con las siguientes condiciones: El primer paso es más o menos 1, con igual probabilidad. Cada paso futuro es: 60% de probabilidades de estar en la misma dirección que el paso anterior, 40% de probabilidades de estar en la dirección...

18
Cómo funciona la prueba de Chi cuadrado de Pearson

Después de un reciente voto negativo, he estado tratando de verificar mi comprensión de la prueba de Pearson Chi Squared. Usualmente uso la estadística de chi cuadrado (o estadística de chi cuadrado reducido) para ajustar o verificar el ajuste resultante. En este caso, la varianza no suele ser el...

18
¿Modelo de muestreo para datos de crowdsourcing?

Estoy trabajando en una aplicación de encuesta de salud abierta, planeada para ser utilizada en países en desarrollo. La idea básica es que las entrevistas de la encuesta son de crowdsourcing : son realizadas por voluntarios no organizados que envían datos de formularios de las entrevistas que...