Me especializo en ciencias, y mi conocimiento de estadística es bastante superficial.
Problema
Tenía que encontrar un conjunto de datos y analizarlo lo mejor que pudiera como asignación para mi curso de estadística. Esto ya no es una tarea, solo necesito ayuda para interpretar por qué hice mal mi análisis y qué debería haber hecho en su lugar.
Utilicé un conjunto de datos categóricos de las tasas de empleo en Nueva Zelanda, planeando organizarlo en una tabla de contingencia 2x2 y utilicé la prueba de chi-cuadrado de Pearson y la prueba exacta de Fisher para evaluar si el género se correlaciona con el empleo.
Lo que quiero responder
- Entienda por qué no puedo usar la prueba de ji cuadrado y la prueba exacta de Fisher para este problema y aprenda lo que debería haber usado en su lugar. ¿"Odds-ratio en función del tiempo", supongo? ¿Algún enlace útil sobre cómo hacerlo perfectamente en R?
- Comprenda el comentario de "correlación secuencial" con respecto a la primera parte de la tarea y qué es exactamente lo que debería haber hecho.
Manera de ayudarme # 1 (más corto)
Así es como se ven nuestros datos (basados en un censo):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
Hice una prueba de ji cuadrado y una prueba exacta de Fisher en R, suponiendo que el valor p obtenido me dirá la probabilidad de tal distribución de trabajos (o un extremo más) dado que el nulo es verdadero (que hombres y mujeres tienen las mismas posibilidades de conseguir un trabajo). Obtuve un valor p muy pequeño, y la prueba de Fisher me dio una razón de posibilidades de 1.16, lo que significa que existe una correlación, y específicamente los hombres tienen un 16% más de probabilidades de encontrar trabajo en Nueva Zelanda.
Sin embargo, según mi profesor, usé estas pruebas de manera inapropiada. No entendí bien por qué, pero creo que estaba diciendo que estas pruebas suponen independencia, y debido a que hay una cantidad determinada de trabajos disponibles en Nueva Zelanda, nuestras muestras no son independientes ... Sin embargo, no estoy seguro de eso (usted puede ver sus comentarios citados a continuación).
Manera de ayudarme # 2 (más tiempo)
Si tienes algo de tiempo libre, te agradecería mucho que pudieras ver toda la tarea. También proporcionaré los comentarios del profesor, por lo que si pudiera interpretarlo para mí, ¡sería genial! La tarea es muy fácil para un matemático / estadístico, solo hay dos preguntas allí, solo está llena de relleno donde traté de demostrar que sé lo que estoy haciendo, puedes saltarte la mayor parte.
Aquí está el enlace a un archivo PDF con la tarea en la que no tuve éxito: estadísticas de asignación.pdf .
Comentarios del profesor
Su figura 1 exhibe correlación secuencial, que es la verdadera razón por la cual la regresión lineal no funciona. Ni la prueba de pescador ni el chi cuadrado son buenos para su tabla de 2x2. Esto se debe a que desea probar la homogeneidad, pero está rechazando el valor nulo por falta de independencia (lo cual no es interesante). La distinción entre los dos es irrelevante aquí (son asintóticamente idénticos en cualquier caso). Podría haber trazado la razón de posibilidades en función del tiempo.
Respuestas:
Algunas respuestas inmediatas:
1) Su profesor quiere decir que los datos muestran autocorrelación. Esto lleva a estimaciones ineficientes de coeficientes de regresión en regresión lineal simple. Dependiendo de si fue cubierto en su curso, eso es un error.
2) Tal vez no entiendo el problema completamente, pero IMAO la prueba de independencia chi-cuadrado se usa correctamente aquí, excepto por otros dos problemas:
3) Su prueba de chi-cuadrado tiene un poder inmenso, debido al tamaño de la muestra. Es difícil no ser significativo, incluso si los efectos fueron muy pequeños. Además, parece que tienes un censo de la población. En esta situación, la inferencia estadística es innecesaria, porque se observan todas las unidades de población. Pero eso no es lo que comenta el profesor.
4) Parece agregar los datos a través de puntos de tiempo. En realidad, debe probar una vez por punto de tiempo, ya que de lo contrario agrega efectos a lo largo del tiempo (cuenta unidades varias veces). Pero eso tampoco es lo que comenta el profesor.
El profesor realmente comenta que desea probar el nulo de homogeneidad, donde prueba el nulo de independencia. Entonces, ¿qué quiere decir con homogeneidad?
Supongo que se refiere a la prueba de homogeneidad marginal en datos de prueba emparejados. Esta prueba se utiliza para evaluar si hubo un cambio en el tiempo (medidas repetidas). Sin embargo, esto no es lo que desea evaluar en primer lugar. Supongo que no entendió que desea probar si el género y el empleo en el momento x están relacionados. Tal vez también trató de sugerir que lo que debe probar es un cambio a lo largo del tiempo (o ningún cambio, en cuyo caso la contingencia repetida múltiple se llamaría homogénea).
fuente
Es una respuesta muy opaca, me parece que dicen "no lo hiciste bien esta vez, intenta más la próxima vez". La única forma de entenderlo es ser valiente y pedirle a su profesor una reunión para discutir más las cosas.
¿Su profesor parece estar decepcionado con su elección de preguntas de investigación tal vez? Creo que pueden haber estado buscando algunas "palabras de moda" como "auto- / serial- / correlation" "series temporales" "efectos estacionales / ajuste" "ciclos económicos" "tendencia". No sé qué se esperaba que supieras al hacer la tarea.
De todos modos, esto es lo que pienso.
Su asignación muestra una buena capacidad para realizar una prueba estadística, pero desde una perspectiva de análisis de datos muestra una extraña elección de ejemplos. El análisis debe ser sobre contar una historia. Personalmente, me gustó la elección del empleo masculino frente al femenino como tema. Sin embargo, habría puesto el "segundo ejemplo" primero, ya que es una pregunta más simple "¿hay una diferencia de género ahora?? ". Después de mostrar que claramente hay una diferencia (como usted), podría haber pasado a la pregunta más compleja de" ¿ha habido una diferencia de género consistente con el tiempo? "Por supuesto, esta pregunta puede estar más allá del alcance de su "caja de herramientas estadísticas" para responder de manera formal. Una forma de hacerlo con la regresión lineal es modelar las probabilidades de ser empleado frente a desempleado (o las probabilidades de registro si esto le da una mejor opción) para hombres y mujeres. tener un modelo simple de ols
Dóndeyi es la relación "empleado" / "desempleado" y xi es una variable ficticia igual a uno si la relación es para hombres y cero en caso contrario, y ei es el residual Luego prueba siβ1=0 . Podría llevar el modelo más allá e incluir una covariable de tiempo, así como una interacción entre tiempo y género. Todo esto es parte de la construcción de su trabajo de análisis como una historia ("la trama se complica", por así decirlo). Esto, por supuesto, depende de saber acerca de la regresión múltiple (que puede estar fuera del contenido del curso).
No hubiera usado ese primer ejemplo, por supuesto, la regresión lineal era inapropiada. Su profesor (probablemente) quiere ver un ejemplo de un buen uso de la regresión lineal. Por supuesto, el ejemplo de ols que mencioné anteriormente también puede no ser apropiado, esto depende de la evaluación del modelo.
fuente