Estoy leyendo A. Agresti (2007), Introducción al análisis de datos categóricos , 2do. edición, y no estoy seguro si entiendo este párrafo (p.106, 4.2.1) correctamente (aunque debería ser fácil):
En la Tabla 3.1 sobre ronquidos y enfermedades cardíacas en el capítulo anterior, 254 sujetos informaron ronquidos todas las noches, de los cuales 30 tenían enfermedades cardíacas. Si el archivo de datos ha agrupado datos binarios, una línea en el archivo de datos informa estos datos como 30 casos de enfermedad cardíaca de un tamaño de muestra de 254. Si el archivo de datos tiene datos binarios desagrupados, cada línea en el archivo de datos se refiere a un tema separado, por lo que 30 líneas contienen un 1 para enfermedades del corazón y 224 líneas contienen un 0 para enfermedades del corazón. Las estimaciones de ML y los valores de SE son los mismos para cualquier tipo de archivo de datos.
¿Transformar un conjunto de datos no agrupados (1 dependiente, 1 independiente) requeriría más que "una línea" para incluir toda la información?
En el siguiente ejemplo, se crea un conjunto de datos simple (¡poco realista!) Y se construye un modelo de regresión logística.
¿Cómo se verían realmente los datos agrupados (pestaña variable)? ¿Cómo se puede construir el mismo modelo utilizando datos agrupados?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())
fuente
tab <- table(x,y, dnn=c('snoring','disease')); glm(tab ~ as.numeric(rownames(tab)), family=binomial)
funcionaría (inversión de signo menos para los coeficientes porque "Sí" está codificado 0 en lugar de 1).