Estoy analizando datos de dos encuestas que fusioné:
Encuesta del personal escolar, para los años 2005-06 y 2007-08
Encuesta de estudiantes escolares, para los años 2005-06 a 2008-09
Para ambos conjuntos de datos, tengo observaciones (a nivel de estudiantes o personal) de 3 distritos escolares diferentes, cada uno con muestras representativas por año dentro de su distrito escolar distinto.
Para el análisis, combiné los datos de los estudiantes en dos períodos de 2 años (2005-07 y 2007-09). Luego, 'doblé' cada conjunto de datos para obtener porcentajes de personal o estudiantes que respondieron a las preguntas de acuerdo con los límites (por ejemplo, si respondieron afirmativamente, "De acuerdo", o si el estudiante marcó que consumió alcohol, etc.) Entonces, cuando fusioné los conjuntos de datos de nivel de personal y estudiantes, la escuela es la unidad de análisis, y solo tengo 1 observación por escuela por períodos de 2 años (dado que a la escuela no le faltaban datos para un período de tiempo determinado )
Mi objetivo es estimar las asociaciones entre el personal y las respuestas de los estudiantes. Hasta ahora, mi plan era obtener coeficientes de correlación de Pearson entre todas las variables (ya que todas son respuestas continuas que representan porcentajes) para cada distrito escolar por separado (ya que esto elimina el supuesto de generalización para los otros distritos en este conjunto de datos) . Para hacer esto, promediaría los datos del distrito durante los dos años de todos modos para obtener solo una observación por escuela.
Preguntas:
- ¿Es este un plan de análisis apropiado? ¿Hay algún otro método que pueda usar que pueda proporcionarme una mejor inferencia o poder?
- Si mi plan es apropiado, ¿debo obtener correlaciones ponderadas basadas en la inscripción de la escuela (ya que hay más escuelas más pequeñas que grandes que estarían contribuyendo desproporcionadamente a los coeficientes de correlación)?
Le pregunté al administrador de datos sobre esto, y él mencionó que los factores principales que determinan la necesidad de ponderar mis datos es si creo que el tamaño de la escuela afecta o no el grado de correlación y si mi interpretación será a nivel de estudiante o escuela. Creo que mi interpretación será a nivel escolar (por ejemplo, "una escuela con este porcentaje de personal respondiendo de esta manera se correlaciona con este porcentaje de estudiantes que responden de esta manera ...").
fuente