Una suposición para el análisis de regresión es que e no están entrelazados. Sin embargo, cuando lo pienso, me parece que tiene sentido.
Aquí hay un ejemplo. Si tenemos una prueba con 3 secciones (AB y C). El puntaje general de la prueba es igual a la suma de los puntajes individuales para las 3 secciones. Ahora tiene sentido decir que se puede puntuar en la sección A e la puntuación general de la prueba. Entonces, la regresión lineal puede responder a esta pregunta: ¿cuál es la variabilidad en el puntaje general de la prueba que es atribuible a la sección A? Aquí, varios escenarios son posibles:
- La Sección A es la más difícil de las 3 secciones y los estudiantes siempre obtienen la calificación más baja. En tal caso, intuitivamente sería bajo. Debido a que la mayoría de la puntuación general de la prueba estaría determinada por B y C.
- La Sección A fue muy fácil para los estudiantes. En este caso también la correlación no sería alta. Porque los estudiantes siempre obtienen el 100% de esta sección y, por lo tanto, esta sección no nos dice nada sobre el puntaje general de la prueba.
- La sección A tiene dificultad intermedia. En este caso, la correlación sería más fuerte (pero esto también depende de los otros puntajes (B y C).
Otro ejemplo es este: analizamos el contenido total de un oligoelemento en la orina. Y analizamos independientemente las especies individuales (formas químicas) de ese oligoelemento en la orina. Puede haber muchas formas químicas. Y si nuestros análisis son correctos, la suma de las formas químicas debería darnos lo mismo que el contenido total de un elemento (analizado por una técnica diferente). Sin embargo, tiene sentido preguntar si una forma química está correlacionada con el contenido total del elemento en la orina, ya que este contenido total es un indicador de la ingesta total de alimentos de ese elemento. Entonces, si decimos que es el elemento total en la orina y es la forma química A en la orina, entonces al estudiar la correlación podemos explorar si esta forma química es la principal que contribuye a la variabilidad general o no.
Me parece que a veces tiene sentido incluso cuando e no son independientes y que en algunos casos esto puede ayudar a responder preguntas científicas.
¿Pensarías que puede ser útil o significativo en los ejemplos anteriores? Si consideramos el ejemplo de puntaje de la prueba anterior, ya diría que habría una contribución del 33% de cada sección si la dificultad hubiera sido exactamente la misma para los estudiantes. Pero en la práctica esto no es necesariamente cierto. Entonces, pensé que quizás el uso del análisis de regresión puede ayudarnos a conocer la verdadera variabilidad atribuida a cada sección de un examen. Entonces, me parece que sería significativo a pesar de que ya sabemos que la hipótesis nula no es cierta.
¿Existen métodos alternativos de regresión modificada para dar cuenta de tales situaciones y proporcionarnos parámetros significativos?
fuente
Respuestas:
Es posible que desee considerar un enfoque fuera del enfoque de regresión tradicional. Esto es comparable a los tipos de problemas que la psicometría está diseñada para resolver (bueno, en realidad su primer ejemplo es precisamente eso, ya que es una prueba).
En la teoría de prueba clásica , una de las métricas más comunes es la correlación de puntaje total del ítem, que es esencialmente la correlación entre el puntaje del ítem y el puntaje total. Le indica la discriminación del elemento : su capacidad para discriminar entre los encuestados con puntajes altos y bajos. Esto es comparable a explicar la varianza, como lo que está preguntando anteriormente conR2 . Hay dos formas de calcular este puntaje, ya sea utilizando el puntaje total de la prueba, incluido el elemento de interés, o excluyéndolo. Cuando tienes muchos artículos, estos dos métodos son casi iguales, pero cuando tienes pocos artículos, pueden hacer una gran diferencia.
Otro enfoque de la Teoría de respuesta al ítem (IRT) es estimar, ya sea a través de un modelo de respuesta al ítem de 2 parámetros o mediante un análisis factorial confirmatorio (que estadísticamente es el mismo, pero en términos de interpretación son diferentes). Un modelo de 2 parámetros incluye un parámetro para la dificultad del ítem (la dificultad relativa del ítem) y uno para la discriminación del ítem, que se interpreta de manera muy similar a la correlación de puntaje total del ítem. Discriminación alta = el ítem diferencia bien entre puntajes altos y bajos. Si utiliza el análisis factorial confirmatorio (CFA), tiene cargas de elementos, que son esencialmente sus parámetros de discriminación. Te dicen cuánto de la puntuación total es impulsada por un elemento en particular.
El uso de IRT o CFA supone que tiene un puntaje latente, no un puntaje observado, que está tratando de estimar. En los ejemplos que da arriba, le preocupa un puntaje observado, que no esté latente. Entonces, estos modelos no serían lo que buscas, ya que son probabilísticos y tienes una relación tautológica (tu total está, por definición, compuesto por las partes, sin errores). Pero los señalo como ejemplos de formas en que las estadísticas obtienen respuestas similares.
Lo último que quiero señalar, y esto es probablemente algo con lo que otros argumentarían, pero si bien se supone que los regresores son independientes, cuando tenemos una variable categórica, e ingresamos variables ficticias en el modelo, esas variables ficticias son, por definición correlacionado Entonces, esto aparentemente violaría los supuestos de independencia y generaría multicolinealidad. Si lo piensa de esta manera, tendría sentido ejecutar su regresión de decir los elementos en la orina, y excluir uno, los coeficientes serían válidos como si fuera una sola variable categórica. En ese sentido, está obteniendo un número comparable a la correlación ítem-total de la teoría de prueba clásica que señalé anteriormente.
fuente
Una forma matemática rápida de verlo es expandir las fórmulas. DejarZ= X+ Y+ W .
En pocas palabras, obtendrá la varianza deX más su relación con sus otras dos variables, dividido por un factor de escala. El factor de escala en sí podría expandirse, pero el numerador cuenta la historia. En general, las cosas que afectarán ese número son a) la escala relativa de X en comparación con Y y W, b) la varianza relativa de X, c) la "contribución" de X a la varianza de Y y W.
En cuanto a si eso es útil o no, ese tipo de depende de lo que buscas. Probablemente sea mejor pensarlo como un "porcentaje de variación total" o algo así, aunque lo mismo para Y y W no todos sumen 1 (o tal vez sí ... no estoy seguro).
fuente
Si X es una de varias variables que suman para definir Y, entonces claramente los supuestos de regresión lineal están rotos. Los valores de P no serán útiles. Las pendientes y sus intervalos de confianza no se pueden interpretar de la manera habitual. Pero esR2 sigue siendo útil? Supongo que es como una estadística descriptiva. Si tienes tresR2 valores que cuantifican la correlación entre Y y cada uno de sus tres componentes, supongo que aprenderías algo interesante al ver los valores relativos de R2 .
fuente
Esto es incorrecto. Una suposición para el análisis de regresión es que los ERRORES no están correlacionados. Vea la entrada de Wikipedia para el teorema de Gauss-Markov.
Sobre el único uso que se me ocurre para elR2 Entre X y Y es mostrar cuánto mejor funciona su modelo cuando incluye otros predictores. Hay otros valores que serían muy informativos. Los valores de los coeficientes estimados y sus errores estándar en particular.
fuente