Preguntas etiquetadas con dataset

Las solicitudes de conjuntos de datos están fuera de tema en este sitio. Use esta etiqueta para preguntas relacionadas con la creación, el procesamiento o el mantenimiento de conjuntos de datos.

93
Pruebas de comprobación de datos esenciales.

En mi trabajo, a menudo trabajo con conjuntos de datos de otras personas, los no expertos me traen datos clínicos y los ayudo a resumirlos y realizar pruebas estadísticas. El problema que tengo es que los conjuntos de datos que traigo casi siempre están plagados de errores tipográficos,...

53
API / feeds de datos disponibles como paquetes en R

EDITAR: La vista de tareas CRAN de Servicios y tecnologías web contiene una lista mucho más completa de fuentes de datos y API disponibles en R. Puede enviar una solicitud de extracción en github si desea agregar un paquete a la vista de tareas. Estoy haciendo una lista de los diversos feeds de...

46
Interpretación del logaritmo transformador predictor y / o respuesta

Me pregunto si hace una diferencia en la interpretación si solo el dependiente, tanto el dependiente como el independiente, o solo las variables independientes se transforman logarítmicamente. Considere el caso de log(DV) = Intercept + B1*IV + Error Puedo interpretar el IV como el porcentaje...

30
Visualizando las intersecciones de muchos conjuntos

¿Existe un modelo de visualización que sea bueno para mostrar la superposición de intersección de muchos conjuntos? Estoy pensando en algo así como los diagramas de Venn, pero que de alguna manera podrían prestarse mejor a un mayor número de conjuntos, como 10 o más. Wikipedia muestra algunos...

29
Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático

Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

28
Calcular la repetibilidad de los efectos de un modelo más antiguo

Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit =

27
¿Pueden los grados de libertad ser un número no entero?

Cuando uso GAM, me da un DF residual de 26.626.626.6 (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero? > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~...