¿Cuáles son los grados de libertad de una distribución?

10

En este momento estoy lidiando con muchas distribuciones, por ejemplo, F, t, χ2.

Me preguntaba por qué estos grados de libertad significan distribuciones como la F(m,n) ¿distribución?

Le Max
fuente
3
Consulte stats.stackexchange.com/questions/16921/… . La respuesta que responde más directamente a su pregunta es stats.stackexchange.com/a/16931 ; Las otras respuestas proporcionan varios refinamientos y formas adicionales de comprender los grados de libertad. En otra parte de la Web, la mejor cuenta que puedo encontrar de esta familia de distribuciones es en rip94550.wordpress.com/2012/07/30/… . Mejores explicaciones aparecen en los textos; mi favorito es JC Kiefer, Introducción. a Stat. Inferencia , pp 265 y ss.
Whuber
@maximus whuber da una respuesta muy detallada en su segundo enlace. Es muy interesante porque habla sobre todos los conceptos erróneos y las malas definiciones dadas en la pieza de Wikipedia que se cita en esa publicación.
Michael R. Chernick

Respuestas:

12

Aquí hay una respuesta menos técnica, quizás más accesible para personas con modesta preparación matemática.

El término grados de libertad (df) se usa en conexión con varias estadísticas de prueba, pero su significado varía de una prueba estadística a la siguiente. Algunas pruebas no tienen grados de libertad asociados con el estadístico de prueba (por ejemplo, Prueba exacta de Fisher o prueba z). Cuando hacemos la prueba az, el valor z que calculamos en función de nuestros datos se puede interpretar en función de una única tabla de valores z críticos, sin importar cuán grande o pequeña sea nuestra muestra (s). Otra forma de decir esto es que hay una distribución z. Eso no es así para algunas otras pruebas (por ejemplo, F o to χ2).

La razón por la que muchas estadísticas de prueba deben interpretarse a la luz de df es que la distribución (teórica) de los valores de la estadística de prueba, suponiendo que la hipótesis nula es verdadera, depende del tamaño de la muestra o el número de grupos, o ambos, o algún otro hecho sobre los datos recopilados. Al hacer una prueba t, la distribución de los valores t depende del tamaño de la muestra, por lo que cuando evaluamos el valor t que calculamos a partir de los datos observados, debemos compararlo con los valores t esperados en función del mismo tamaño de muestra que nuestros datos. Del mismo modo, la distribución de los valores de F en un Análisis de varianza (suponiendo que la hipótesis nula sea verdadera) depende tanto del tamaño de la muestra como del número de grupos. Entonces, para interpretar el valor F que calculamos a partir de nuestros datos, necesitamos usar tablas de valores F que se basen en el mismo tamaño de muestra y el mismo número de grupos que tenemos en nuestros datos. Dicho esto de manera diferente, las pruebas F (es decir, ANOVA) y las pruebas t y las pruebas tests2 requieren una familia de curvas para ayudarnos a interpretar el valor t o F o χ2 que calculamos en función de nuestros datos. Elegimos entre estas familias de curvas en función de los valores (es decir, df) para que las probabilidades que leemos de las tablas sean apropiadas para nuestros datos. (Por supuesto, la mayoría de los programas de computadora hacen esto por nosotros).

Joel W.
fuente
3
+1 Realmente maravilloso trabajo de ver el corazón práctico del asunto y explicarlo claramente.
Whuber
0

La distribución F es la relación de dos distribuciones centrales de chi-cuadrado. La m son los grados de libertad asociados con la variable aleatoria de chi-cuadrado que representa el numerador y la n son los grados de libertad de la chi-cuadrado para el denominador. Para completar la respuesta a su pregunta, necesito explicar los grados de libertad de chi-cuadrado. Una distribución de chi-cuadrado con n grados de libertad se puede representar como la suma de cuadrados de n variables aleatorias independientes N (0,1). Por lo tanto, los grados de libertad pueden considerarse como el número de variables aleatorias normales que aparecen en la suma.

Ahora esto cambiará si estas normales incluyen parámetros estimados. Supongamos, por ejemplo, que tenemos n variables aleatorias independientes N (m, 1) Xii = 1,2, ..., n. Entonces deja Xb ser la media de la muestra = ∑Xi/norte.

Ahora calcula S2 = ∑ (Xi-Xb)2. Esto es2tendrá una distribución de chi-cuadrado pero con n-1 grados de libertad. En este caso todavía estamos sumando n, al azar N (0,1) variables aleatorias. Pero la diferencia aquí es que no son independientes porque cada uno se forma usando la misma Xb. Entonces, para el chi-cuadrado, a menudo se dice que los grados de libertad son iguales al número de términos en la suma menos el número de parámetros estimados.

En el caso de la distribución t tenemos un N (0, σ2) dividido por V donde V es la estimación muestral de σ. V es proporcional a un chi-cuadrado con n-1 grados de libertad donde n es el tamaño de la muestra. Los grados de libertad para t son los grados de libertad para la variable aleatoria de chi-cuadrado que participa en el cálculo de V.

Michael R. Chernick
fuente