¿Se puede calcular una probabilidad de -2 Log con un solo modelo?

9

Estoy usando la glmfitfunción en MATLAB. La función solo devuelve la desviación y no la probabilidad de registro. Entiendo que la desviación es básicamente el doble de la diferencia entre las probabilidades de registro de los modelos, pero lo que no obtengo es que solo estoy usando glmfitpara crear un modelo, pero de alguna manera estoy obteniendo una desviación.

  • ¿El cálculo de la probabilidad de log -2 requiere 2 modelos?
  • ¿Cómo se puede analizar la desviación cuando solo hay un modelo?

Otra pregunta que tengo es decir que tenía dos modelos y que los estaba comparando usando la prueba de probabilidad de registro. La hipótesis nula sería el primer modelo y la hipótesis alternativa sería el segundo modelo. Después de obtener el estadístico de prueba de probabilidad de registro, ¿lo verificaría contra el cdf de chi cuadrado para determinar el valor p? ¿Tengo razón en que si es menor que el nivel alfa rechazaría el nulo y si es mayor, no podría rechazar el nulo?

shiu6rewgu
fuente
2
A tu primera pregunta. Sí, hay 2 modelos. El otro es un modelo perfecto con probabilidad de registro = 0. De esta manera, su desviación es igual a la probabilidad de registro de su modelo.
FMZ
1
¿sería modelo perfecto - mi modelo, o mi modelo - modelo perfecto? ¿Y dividirlo por -2 realmente me da la probabilidad de registro del modelo y podría usar eso para hacer la prueba de probabilidad de registro?
shiu6rewgu

Respuestas:

13

El término estadístico desviación se arroja demasiado. La mayoría de las veces, los programas devuelven la desviación donde es su parámetro (s) estimado (s) a partir del ajuste del modelo es una ocurrencia potencialmente observada / observable de la cantidad aleatoria en cuestión.

D(y)=2log{p(y|θ^)},
θ^y

La desviación más común a la que se refiere trataría la desviación anterior en función de dos variables, tanto los datos como los parámetros ajustados: y, por lo tanto, si tuviera un valor pero dos valores de parámetros ajustados, y , entonces obtendría la desviación que mencionó de Puede leer sobre la función de Matlab que mencionó , vinculada aquí . Aquí se vincula una discusión más fructífera, aunque más corta, sobre la desviación .

D(y,θ^)=2log{p(y|θ^)}
yθ^1θ^2
2(log{p(y|θ^1)}log{p(y|θ^2)}).
glmfit()

La estadística de desviación implícitamente supone dos modelos: el primero es su modelo ajustado, devuelto por glmfit(), llame a este parámetro vector . El segundo es el "modelo completo" (también llamado "modelo saturado"), que es un modelo en el que hay una variable libre para cada punto de datos, llame a este parámetro vector . Obviamente, tener tantas variables libres es algo estúpido, pero le permite ajustarse exactamente a esos datos.θ^1θ^s

Entonces, las estadísticas de desviación se calculan como la diferencia entre la probabilidad de registro calculada en el modelo ajustado y el modelo saturado. Sea la colección de los N puntos de datos. Entonces:Y={y1,y2,,yN}

DEV(θ^1,Y)=2[logp(Y|θ^1)logp(Y|θ^s)].
Los términos anteriores se ampliarán en sumas sobre los puntos de datos individuales por el supuesto de independencia. Si desea usar este cálculo para calcular la probabilidad logarítmica del modelo, primero deberá calcular la probabilidad logarítmica del modelo saturado. Aquí hay un enlace que explica algunas ideas para calcular esto ... pero el problema es que, en cualquier caso, tendrá que escribir una función que calcule la probabilidad de registro para su tipo de datos, y en ese caso Probablemente sea mejor crear su propia función que calcule la probabilidad de registro usted mismo, en lugar de retroceder a partir de un cálculo de desviación.yi

Consulte el Capítulo 6 del Análisis de datos bayesianos para una buena discusión sobre la desviación.

En cuanto a su segundo punto sobre la estadística de prueba de probabilidad, sí, parece que básicamente sabe lo que hay que hacer. Pero en muchos casos, considerará que la hipótesis nula es algo que el conocimiento externo experto le permite adivinar con anticipación (como si algún coeficiente fuera igual a cero). No es necesariamente algo que surge como resultado del ajuste del modelo.

ely
fuente
Gracias EMS! ¡Realmente me ayudaste a entender qué desviación es mucho! Todavía tengo algunas preguntas, pero no estoy seguro de cómo hacerlas. Una vez que descubra cómo redactarlo, definitivamente responderé aquí.
shiu6rewgu
Ok, primera pregunta, ¿cómo extraería la probabilidad de registro para el modelo que creé a partir de la desviación considerando que matlab solo me da la desviación? Además, (sé que esto me hace ver bastante estúpido, pero) para p (y | θˆ2) sería esa la probabilidad de obtener un cierto valor y del conjunto de datos de resultados o las variables independientes dado el parámetro ajustado
shiu6rewgu
Parece que me equivoqué sobre el método de Matlab. Calcula la desviación mirando dos modelos, y he editado la respuesta anterior para reflejar esto.
Ely
+1, esta es una muy buena respuesta. Espero ver más de ellos en el futuro.
gung - Restablece a Monica
1
@SibbsGambling En este enlace hay un ejemplo con datos de árbol coolibah que muestran un modelo "completo" o "saturado" donde la probabilidad de registro no es cero. Creo que hay ciertas situaciones en las que el modelo saturado debe tener una probabilidad de uno por definición, pero no en todas las situaciones.
ely