Antecedentes: mi organización actualmente compara sus estadísticas de diversidad de la fuerza laboral (por ejemplo,% de personas con discapacidades,% de mujeres,% de veteranos) con la disponibilidad total de la fuerza laboral para esos grupos según la Encuesta sobre la Comunidad Estadounidense (un proyecto de encuestas de la Oficina del Censo de los EE. UU.). Este es un punto de referencia inexacto, porque tenemos un conjunto muy específico de trabajos que tienen una demografía diferente a la de la fuerza laboral en general. Digamos, por ejemplo, que mi organización es principalmente ingenieros. La ingeniería es solo un 20% de mujeres en mi estado. Si nos comparamos con el punto de referencia total de la fuerza laboral, que se parece más al 50% de mujeres, resulta en pánico que "solo tenemos 20% de mujeres, ¡esto es un desastre!" cuando realmente, el 20% es lo que deberíamos esperar porque así es como se ve el panorama laboral.
Mi objetivo: lo que me gustaría hacer es tomar los datos de ocupación de la Encuesta sobre la Comunidad Estadounidense (por categoría de diversidad) y volver a ponderarlos según la composición de los trabajos en mi negocio. Aquí hay un conjunto de datos de muestra para trabajadores del Servicio Social y Comunitario . Quiero agregar estos códigos de trabajo enumerados juntos (porque nuestro paso de peatones es a grupos de trabajo, no a códigos de trabajo específicos), luego quiero ponderar ese punto de referencia en función de la cantidad de personas que tenemos en esa categoría (por ejemplo, nuestros 3,000 Social y Trabajadores de servicios comunitarios), luego quiero hacer lo mismo con todos los demás grupos de trabajo, sumar esos números y dividirlos por nuestro número total de trabajadores. Esto me daría una nueva medida de diversidad ponderada (por ejemplo, del 6% de personas con discapacidad al 2% de personas con discapacidad).
Mis preguntas: ¿Cómo ajusto los márgenes de error a este punto de referencia final enrollado? No tengo el conjunto de datos del censo sin procesar (obviamente), pero puede ver los márgenes de error para cada número en el enlace que proporcioné al alternar el campo "Estimación" a "Margen de error" en la parte superior de la tabla. Mis otros compañeros de trabajo que están trabajando con estos datos tienen la plena intención de ignorar los márgenes de error, pero me preocupa que estemos creando un punto de referencia estadísticamente sin sentido para nosotros mismos. ¿Estos datos son aún utilizables después de la manipulación descrita anteriormente?
Respuestas:
Actualización 2014-01-15
Me doy cuenta de que no respondí la pregunta original de Danica sobre si el margen de error para la proporción deshabilitada indirectamente ajustada sería mayor o menor que el margen de error para la misma tasa en ACS. La respuesta es: si las proporciones de la categoría de la compañía no difieren drásticamente de las proporciones estatales de ACS, el margen de error que figura a continuación será menor que el margen de error de ACS. La razón: la tasa indirecta trata los recuentos de personas de categoría laboral de la organización (o proporciones relativas) como números fijos . La estimación de ACS de la proporción de discapacitados requiere, en efecto, una estimación de esas proporciones, y los márgenes de error aumentarán para reflejar esto.
Para ilustrar, escriba la tasa deshabilitada como:
donde es la tasa de discapacidad estimada en la categoría en el ACS.pag^yo i
Por otro lado, la tasa estimada de ACS es, en efecto:
donde y son respectivamente la categoría de población y los totales generales y es la proporción de población en la categoría .Ni N Ni/N i
Por lo tanto, el error estándar para la tasa ACS será mayor debido a la necesidad de estimar además de .Ni/N pi
Si las proporciones de la categoría de la organización y las proporciones estimadas de la población difieren mucho, entonces es posible que . En un ejemplo de dos categorías que construí, las categorías se representaron en proporciones y . El error estándar para la proporción estimada deshabilitada fue .SE(P^adj)>SE(P^acs) N1/N=0.7345 N2/N=0.2655 SE(P^acs)=0.0677
Si yo consideraba 0.7345 y 0.2655 a ser los valores fijos y (el enfoque de ajuste indirecto), , mucho más pequeño. Si, en cambio, y , , casi lo mismo que En el extremo y , . Me sorprendería si las proporciones de organización y categoría de población difieren tan drásticamente. Si no lo hacen, creo que es seguro usar el margen de error de ACS como una estimación conservadora, posiblemente muy conservadora, del verdadero margen de error.n1/n n2/n SE(P^adj)=0.0375 n1/n=0.15 n2/n=0.85 SE(P^adj)=0.0678 SE(P^acs) n1/n=0.001 S E ( P un d j ) = 0,079n2/n=0.999 SE(P^adj)=0.079
Actualización 2014-01-14
Respuesta corta
En mi opinión, sería irresponsable presentar una estadística de este tipo sin un IC o margen de error (longitud del IC medio). Para calcularlos, deberá descargar y analizar la Muestra de microdatos de uso público (PUMS) de ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Respuesta larga
Esto no es realmente una nueva ponderación de la ACS. Es una versión de estandarización indirecta, un procedimiento estándar en epidemiología (google o vea cualquier texto epi). En este caso, las tasas de discapacidad del trabajo (categoría) de ACS estatales se ponderan por los recuentos de empleados de la categoría de trabajo de la organización. Esto calculará un número esperado de personas discapacitadas en la organización
E
, que se puede comparar con el número observadoO
. La métrica habitual para la comparación es una relación estandarizadaR= (O/E)
. (El término habitual es "SMR", para "índice de mortalidad estandarizado", pero aquí el "resultado" es la discapacidad).R
es también la relación entre la tasa de discapacidad observada(O/n)
y la tasa indirectamente estandarizada(E/n)
, donden
es el número de empleados de la organización.En este caso, parece que solo se necesitará un CI para
E
oE/n
, por lo que comenzaré con eso:Si
Entonces
La varianza de
E
es:donde
nn
es el vector de columna de la categoría de organización cuenta yV
es la matriz de varianza-covarianza estimada de las tasas de discapacidad de la categoría ACS.Además, trivialmente,
se(E) = sqrt(var(E))
yse(E/n) = se(E)/n
.y un IC del 90% para E es
Divide entre
n
para obtener el CI paraE/n
.Para estimar
var(E)
, deberá descargar y analizar los datos de la muestra de microdatos de uso público (PUMS) de ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).Solo puedo hablar del proceso de computación
var(E)
en Stata. Como no sé si está disponible para usted, diferiré los detalles. Sin embargo, alguien conocedor de las capacidades de encuesta de R o (posiblemente) SAS también puede proporcionar el código de las ecuaciones anteriores.Intervalo de confianza para la relación
R
Los intervalos de confianza para
R
se basan normalmente en una suposición de Poisson paraO
, pero esta suposición puede ser incorrecta.Podemos considerar
O
yE
ser independientes, entoncesvar(log(E))
se puede calcular como un paso más de Stata después del cálculo devar(E)
.Bajo el supuesto de independencia de Poisson:
Un programa como Stata podría ajustarse, por ejemplo, a un modelo binomial negativo o modelo lineal generalizado y darle un término de varianza más preciso.
Un IC aproximado del 90% para
log R
esy los puntos finales se pueden exponer para obtener el IC
R
.fuente
FWIW hay buenos recursos para ACS y para acceder a PUMS aquí ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).
También hay un paquete para manejar datos ACS en el CRAN, llamado, naturalmente, ACS, que he encontrado realmente útil para hacer cosas atípicas con datos ACS. Este es un buen paso a paso para el paquete (desafortunadamente la documentación no es súper intuitiva): http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf
fuente
agregando al enlace http://asdfree.com en la respuesta de @ pricele2 ... para resolver este problema con software libre, le animo a que siga estos pasos:
(1) ( dos horas de trabajo duro ) familiarizarse con el lenguaje r. mira los primeros 50 videos, dos minutos cada uno
http://twotorials.com/
(2) ( una hora de instrucciones fáciles de seguir ) instale monetdb en su computadora
http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html
(3) ( treinta minutos de seguimiento de instrucciones + descarga durante la noche ) descargue los pums acs en su computadora. solo obtén los años que necesitas.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R
(4) ( cuatro horas de aprendizaje, programación y verificación de su trabajo ) recodifique las variables que necesita recodificar, de acuerdo con las especificaciones que requiera
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R
(5) ( dos horas de análisis real ) ejecute el comando exacto que está buscando, capture el error estándar y calcule un intervalo de confianza.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R
(6) ( cuatro horas de programación ) si necesita un estimador de relación, siga el ejemplo de estimación de relación (con error estándar ajustado correctamente por encuesta) aquí:
https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552
fuente