¿Cómo afectaría la revaloración de los datos de diversidad de American Community Survey a sus márgenes de error?

Antecedentes: mi organización actualmente compara sus estadísticas de diversidad de la fuerza laboral (por ejemplo,% de personas con discapacidades,% de mujeres,% de veteranos) con la disponibilidad total de la fuerza laboral para esos grupos según la Encuesta sobre la Comunidad Estadounidense (un proyecto de encuestas de la Oficina del Censo de los EE. UU.). Este es un punto de referencia inexacto, porque tenemos un conjunto muy específico de trabajos que tienen una demografía diferente a la de la fuerza laboral en general. Digamos, por ejemplo, que mi organización es principalmente ingenieros. La ingeniería es solo un 20% de mujeres en mi estado. Si nos comparamos con el punto de referencia total de la fuerza laboral, que se parece más al 50% de mujeres, resulta en pánico que "solo tenemos 20% de mujeres, ¡esto es un desastre!" cuando realmente, el 20% es lo que deberíamos esperar porque así es como se ve el panorama laboral.

Mi objetivo: lo que me gustaría hacer es tomar los datos de ocupación de la Encuesta sobre la Comunidad Estadounidense (por categoría de diversidad) y volver a ponderarlos según la composición de los trabajos en mi negocio. Aquí hay un conjunto de datos de muestra para trabajadores del Servicio Social y Comunitario . Quiero agregar estos códigos de trabajo enumerados juntos (porque nuestro paso de peatones es a grupos de trabajo, no a códigos de trabajo específicos), luego quiero ponderar ese punto de referencia en función de la cantidad de personas que tenemos en esa categoría (por ejemplo, nuestros 3,000 Social y Trabajadores de servicios comunitarios), luego quiero hacer lo mismo con todos los demás grupos de trabajo, sumar esos números y dividirlos por nuestro número total de trabajadores. Esto me daría una nueva medida de diversidad ponderada (por ejemplo, del 6% de personas con discapacidad al 2% de personas con discapacidad).

Mis preguntas: ¿Cómo ajusto los márgenes de error a este punto de referencia final enrollado? No tengo el conjunto de datos del censo sin procesar (obviamente), pero puede ver los márgenes de error para cada número en el enlace que proporcioné al alternar el campo "Estimación" a "Margen de error" en la parte superior de la tabla. Mis otros compañeros de trabajo que están trabajando con estos datos tienen la plena intención de ignorar los márgenes de error, pero me preocupa que estemos creando un punto de referencia estadísticamente sin sentido para nosotros mismos. ¿Estos datos son aún utilizables después de la manipulación descrita anteriormente?

confidence-interval sampling data-transformation diversity DanicaE
fuente

No vuelva a pesar el ACS: es un producto delicado y altamente sofisticado, y con el debido respeto, no creo que sea tan buen estadístico como la Oficina del Censo en conjunto. Si puede obtener definiciones de trabajo consistentes con su tarea en ACS o CPS para las comparaciones a nivel nacional, entonces la comparación de manzanas a manzanas sería calcular el número esperado de categorías de "diversidad" basadas en ACS para que su negocio actúe como diversidad razonable objetivos.

StasK

Stas, estoy de acuerdo con usted, pero como indico a continuación, esto no es en realidad una nueva ponderación de ACS.

Steve Samuels

En las estadísticas de la encuesta, "volver a pesar" significaría la transformación de los pesos de la encuesta original . Un ejemplo de esto sería post-estratificación, rastrillado de muestras o calibración, de modo que ciertas distribuciones marginales para las distribuciones de muestras ponderadas coincidan conocidas externamente, por ejemplo, desde el censo o ACS. El procedimiento que menciona Danica no toca los pesos de ACS.

Steve Samuels

Lo que puede ayudar es escribir la cantidad de población finita que desea saber. ¿También el ACS tiene pesos replicados? Estos pueden ayudar con la estimación de la varianza.

probabilidadislogica

Respuestas:

Actualización 2014-01-15

Me doy cuenta de que no respondí la pregunta original de Danica sobre si el margen de error para la proporción deshabilitada indirectamente ajustada sería mayor o menor que el margen de error para la misma tasa en ACS. La respuesta es: si las proporciones de la categoría de la compañía no difieren drásticamente de las proporciones estatales de ACS, el margen de error que figura a continuación será menor que el margen de error de ACS. La razón: la tasa indirecta trata los recuentos de personas de categoría laboral de la organización (o proporciones relativas) como números fijos . La estimación de ACS de la proporción de discapacitados requiere, en efecto, una estimación de esas proporciones, y los márgenes de error aumentarán para reflejar esto.

Para ilustrar, escriba la tasa deshabilitada como:

{\hat{P}}_{a d j} = \sum \frac{n_{i}}{n} \hat{p_{i}}

$\hat{P}_{adj} = \sum \dfrac{n_i}{n} \hat{p_i} \\$

donde es la tasa de discapacidad estimada en la categoría en el ACS. $\hat{p}_i$ $i$

Por otro lado, la tasa estimada de ACS es, en efecto:

{\hat{P}}_{a c s} = \sum \hat{(\frac{N_{i}}{N})} \hat{p_{i}}

$\hat{P}_{acs} = \sum\widehat{\left(\frac{N_i}{N}\right)} \hat{p_i}$

donde y son respectivamente la categoría de población y los totales generales y es la proporción de población en la categoría . $N_i$ $N$ $N_i/N$ $i$

Por lo tanto, el error estándar para la tasa ACS será mayor debido a la necesidad de estimar además de . $N_i/N$ $p_i$

Si las proporciones de la categoría de la organización y las proporciones estimadas de la población difieren mucho, entonces es posible que . En un ejemplo de dos categorías que construí, las categorías se representaron en proporciones y . El error estándar para la proporción estimada deshabilitada fue . $SE( \hat{P}_{adj} )>SE( \hat{P}_{acs} )$ $N_1/N= 0.7345$ $N_2/N= 0.2655$ $SE( \hat{P}_{acs} ) = 0.0677$

Si yo consideraba 0.7345 y 0.2655 a ser los valores fijos y (el enfoque de ajuste indirecto), , mucho más pequeño. Si, en cambio, y , , casi lo mismo que En el extremo y , . Me sorprendería si las proporciones de organización y categoría de población difieren tan drásticamente. Si no lo hacen, creo que es seguro usar el margen de error de ACS como una estimación conservadora, posiblemente muy conservadora, del verdadero margen de error. $n_1/n$ $n_2/n$ $SE(\hat{P}_{adj} )=0.0375$ $n_1/n= 0.15$ $n_2/n =0.85$ $SE( \hat{P}_{adj} )=0.0678$ $SE( \hat{P}_{acs} )$ $n_1/n= 0.001$ $n_2/n =0.999$ $SE( \hat{P}_{adj} )=0.079$

Actualización 2014-01-14

Respuesta corta

En mi opinión, sería irresponsable presentar una estadística de este tipo sin un IC o margen de error (longitud del IC medio). Para calcularlos, deberá descargar y analizar la Muestra de microdatos de uso público (PUMS) de ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Respuesta larga

Esto no es realmente una nueva ponderación de la ACS. Es una versión de estandarización indirecta, un procedimiento estándar en epidemiología (google o vea cualquier texto epi). En este caso, las tasas de discapacidad del trabajo (categoría) de ACS estatales se ponderan por los recuentos de empleados de la categoría de trabajo de la organización. Esto calculará un número esperado de personas discapacitadas en la organización E, que se puede comparar con el número observado O. La métrica habitual para la comparación es una relación estandarizada R= (O/E). (El término habitual es "SMR", para "índice de mortalidad estandarizado", pero aquí el "resultado" es la discapacidad). Res también la relación entre la tasa de discapacidad observada (O/n)y la tasa indirectamente estandarizada (E/n), donde nes el número de empleados de la organización.

En este caso, parece que solo se necesitará un CI para Eo E/n, por lo que comenzaré con eso:

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Entonces

 E = sum (n_i p_i)

La varianza de Ees:

 var(E) = nn' V nn

donde nnes el vector de columna de la categoría de organización cuenta y Ves la matriz de varianza-covarianza estimada de las tasas de discapacidad de la categoría ACS.

Además, trivialmente, se(E) = sqrt(var(E))y se(E/n) = se(E)/n.

y un IC del 90% para E es

  E ± 1.645 SE(E)

Divide entre npara obtener el CI para E/n.

Para estimar var(E), deberá descargar y analizar los datos de la muestra de microdatos de uso público (PUMS) de ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Solo puedo hablar del proceso de computación var(E)en Stata. Como no sé si está disponible para usted, diferiré los detalles. Sin embargo, alguien conocedor de las capacidades de encuesta de R o (posiblemente) SAS también puede proporcionar el código de las ecuaciones anteriores.

Intervalo de confianza para la relación R

Los intervalos de confianza para Rse basan normalmente en una suposición de Poisson para O, pero esta suposición puede ser incorrecta.

Podemos considerar Oy Eser independientes, entonces

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))se puede calcular como un paso más de Stata después del cálculo de var(E).

Bajo el supuesto de independencia de Poisson:

 var(log O) ~ 1/E(O).

Un programa como Stata podría ajustarse, por ejemplo, a un modelo binomial negativo o modelo lineal generalizado y darle un término de varianza más preciso.

Un IC aproximado del 90% para log Res

 log R ± 1.645 sqrt(var(log R))

y los puntos finales se pueden exponer para obtener el IC R.

Steve Samuels
fuente

Esta es una buena discusión. Al final, sin embargo, su recomendación de exponer un CI para puede resultar en un CI verdaderamente pobre para sí.

\log (R)

$\log(R)$

R

$R$

whuber

Esto no me pareció un caso en el que el frotis fuera apropiado, pero podría estar equivocado. ¿Qué sugieres?

Steve Samuels

Algunos métodos mencionados en CV incluyen el reinicio del CI, el método delta y el perfil de la función de probabilidad.

whuber

Gracias por tu respuesta. ¿Es posible extraer datos PUMS con R? No tengo SAS. He extraído los datos de PUMS antes de usar la herramienta DataFerret proporcionada por el censo, pero no estoy seguro de que eso me dé algo que pueda manipular útilmente en Excel, que es lo que tengo. Puedo instalar R, obviamente, pero no tengo ninguna experiencia con él.

DanicaE

De nada, Danica. Si esta respuesta es útil, presione la marca de verificación para aceptarla oficialmente. Observe que actualicé la respuesta. Le recomiendo que presente los márgenes de error de ACS como sustitutos conservadores de los correctos.

Steve Samuels

FWIW hay buenos recursos para ACS y para acceder a PUMS aquí ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

También hay un paquete para manejar datos ACS en el CRAN, llamado, naturalmente, ACS, que he encontrado realmente útil para hacer cosas atípicas con datos ACS. Este es un buen paso a paso para el paquete (desafortunadamente la documentación no es súper intuitiva): http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf

pricele2
fuente

agregando al enlace http://asdfree.com en la respuesta de @ pricele2 ... para resolver este problema con software libre, le animo a que siga estos pasos:

(1) ( dos horas de trabajo duro ) familiarizarse con el lenguaje r. mira los primeros 50 videos, dos minutos cada uno

http://twotorials.com/

(2) ( una hora de instrucciones fáciles de seguir ) instale monetdb en su computadora

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( treinta minutos de seguimiento de instrucciones + descarga durante la noche ) descargue los pums acs en su computadora. solo obtén los años que necesitas.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( cuatro horas de aprendizaje, programación y verificación de su trabajo ) recodifique las variables que necesita recodificar, de acuerdo con las especificaciones que requiera

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( dos horas de análisis real ) ejecute el comando exacto que está buscando, capture el error estándar y calcule un intervalo de confianza.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( cuatro horas de programación ) si necesita un estimador de relación, siga el ejemplo de estimación de relación (con error estándar ajustado correctamente por encuesta) aquí:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552

Anthony Damico
fuente

Gracias, esos son excelentes recursos. Si alguien más viene aquí buscando esta información, los tutoriales de R que he estado usando son datacamp.com y coursera.org/course/rprog . Data Camp es un fantástico tutorial interactivo. El curso Coursera es más pesado en teoría / estructura / nombres para las cosas.

DanicaE