Estadísticas y Big Data

181
¿Qué es un científico de datos?

Después de graduarme recientemente de mi programa de doctorado en estadística, durante los últimos meses comencé a buscar trabajo en el campo de la estadística. Casi todas las compañías que consideraba tenían un puesto de trabajo con un título de " Data Scientist ". De hecho, parecía que habían...

181
¿Cómo resumir datos por grupo en R? [cerrado]

Tengo un marco de datos R como este: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Necesito obtener el marco de datos en la siguiente forma: group mean sd 1 34.5 5.6 2 32.3 4.2 ... El número de grupo...

173
Cómo interpretar una trama QQ

Estoy trabajando con un pequeño conjunto de datos (21 observaciones) y tengo el siguiente gráfico QQ normal en R: Al ver que la trama no admite la normalidad, ¿qué podría inferir sobre la distribución subyacente? Me parece que una distribución más sesgada a la derecha encajaría mejor, ¿no es...

167
¿Cuándo debo usar lazo vs cresta?

Digamos que quiero estimar una gran cantidad de parámetros, y quiero penalizar algunos de ellos porque creo que deberían tener poco efecto en comparación con los demás. ¿Cómo decido qué esquema de penalización utilizar? ¿Cuándo es más apropiada la regresión de cresta? ¿Cuándo debo usar el...

159
ROC vs curvas de precisión y recuperación

Entiendo las diferencias formales entre ellos, lo que quiero saber es cuándo es más relevante usar uno frente al otro. ¿Proporcionan siempre información complementaria sobre el rendimiento de un determinado sistema de clasificación / detección? ¿Cuándo es razonable proporcionarlos a ambos, por...

154
Generativo versus discriminativo

Sé que generativo significa "basado en " y discriminativo significa "basado en ", pero estoy confundido en varios puntos:P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) Wikipedia (+ muchos otros éxitos en la web) clasifican cosas como SVM y árboles de decisión como discriminatorias. Pero estos ni siquiera...

147
¿Se puede aplicar el análisis de componentes principales a conjuntos de datos que contienen una combinación de variables continuas y categóricas?

Tengo un conjunto de datos que tiene datos continuos y categóricos. Estoy analizando utilizando PCA y me pregunto si está bien incluir las variables categóricas como parte del análisis. Entiendo que PCA solo se puede aplicar a variables continuas. ¿Es eso correcto? Si no se puede utilizar para...