Prueba de hipótesis y distancia de variación total vs. divergencia Kullback-Leibler

10

En mi investigación me he encontrado con el siguiente problema general: tengo dos distribuciones P y Q sobre el mismo dominio, y una gran cantidad (pero finita) de muestras de esas distribuciones. Las muestras se distribuyen de forma independiente e idéntica a partir de una de estas dos distribuciones (aunque las distribuciones pueden estar relacionadas: por ejemplo, Q puede ser una mezcla de P y alguna otra distribución). La hipótesis nula es que las muestras provienen de P , la hipótesis alternativa es que muestras provienen de Q .

Estoy tratando de caracterizar el tipo I y tipo II errores en la prueba de la muestra, a sabiendas de las distribuciones P y Q . En particular, estoy interesado en que delimita un error dado a la otra, además del conocimiento de P y Q .

Hice una pregunta sobre matemáticas. SE con respecto a la relación de la distancia de variación total entre P y Q con la prueba de hipótesis, y recibí una respuesta que acepté. Esa respuesta tiene sentido, pero todavía no he podido entender el significado más profundo detrás de la relación de la distancia de variación total y la prueba de hipótesis en relación con mi problema. Por lo tanto, decidí recurrir a este foro.

Mi primera pregunta es: ¿está la variación total ligada a la suma de las probabilidades de los errores de Tipo I y Tipo II independientemente del método de prueba de hipótesis que uno emplea? En esencia, siempre que haya una probabilidad distinta de cero de que la muestra pueda haber sido generada por cualquiera de las distribuciones, la probabilidad de al menos uno de los errores debe ser distinta de cero. Básicamente, no puede escapar a la posibilidad de que su probador de hipótesis cometa un error, sin importar cuánto procesamiento de señal realice. Y la variación total limita esa posibilidad exacta. ¿Es correcto mi entendimiento?

También hay otra relación entre los errores de Tipo I y II y las distribuciones de probabilidad subyacentes y Q : la divergencia KL . Por lo tanto, mi segunda pregunta es: ¿la unión de la divergencia KL solo es aplicable a un método de prueba de hipótesis específico (parece surgir mucho del método de relación de probabilidad logarítmica) o puede aplicarse en general a todos los métodos de prueba de hipótesis? Si es aplicable a todos los métodos de prueba de hipótesis, ¿por qué parece ser tan diferente del límite de variación total? ¿Se comporta de manera diferente?PQ

Y mi pregunta subyacente es: ¿hay un conjunto de circunstancias prescritas en las que debería usar cualquiera de los límites, o es puramente una cuestión de conveniencia? ¿Cuándo se debe derivar el resultado usando una retención enlazada usando la otra?

Pido disculpas si estas preguntas son triviales. Soy un científico de la computación (así que esto me parece un problema elegante de comparación de patrones :).) Conozco la teoría de la información razonablemente bien, y también tengo experiencia en teoría de la probabilidad. Sin embargo, apenas estoy empezando a aprender todo este material de prueba de hipótesis. Si es necesario, haré todo lo posible para aclarar mis preguntas.

MBM
fuente

Respuestas:

8

Literatura: La mayor parte de la respuesta que necesita está ciertamente en el libro de Lehman y Romano . El libro de Ingster y Suslina trata temas más avanzados y puede darle respuestas adicionales.

L1TVnL1

Desarrollo: denotémonos por

  • g1(α0,P1,P0)α0P0P1
  • g2(t,P1,P0)t(1t)P0P1

L1L1L1TV

L1χ2P1P0Pi=pin i=0,1p1p0nh(P1,P0)h(p1,p0)KLχ2L1

A1(ν1,ν0)ν1ν2

A1(ν1,ν0)=min(dν1,dν0)

Teorema 1 Si(la mitad de la televisión dist), entonces |ν1ν0|1=|dν1dν0|

  • 2A1(ν1,ν0)=(ν1+ν0)|ν1ν0|1 .
  • g1(α0,P1,P0)=supt[0,1/α0](A1(P1,tP0)tα0)
  • g2(t,P1,P0)=A1(tP0,(1t)P1)

Escribí la prueba aquí .

Teorema 2 Para distribuciones de probabilidad y : P1P0

12|P1P0|1h(P1,P0)K(P1,P0)χ2(P1,P0)

Estos límites se deben a varios estadísticos conocidos (LeCam, Pinsker, ...). es la distancia de Hellinger, la divergencia KL y la divergencia chi-cuadrado. Todos están definidos aquí . y se dan las pruebas de estos límites (se pueden encontrar más cosas en el libro de Tsybacov ). También hay algo que es casi un límite inferior de por Hellinger ...hKχ2L1

robin girard
fuente
1
Gracias por la respuesta, ahora estoy tratando de digerirlo. En mi problema, he permitido el error Tipo I. También tengo las dos distribuciones y . Sé que la televisión entre ellos (así como KL). Entonces, lo que está diciendo es que la TV ofrece un límite inferior más estrecho en el error de Tipo II que KL, lo que significa que debería usar la TV para mi análisis si deseo un límite inferior lo más ajustado posible. P0P1
MBM
Y gracias por la sugerencia del libro de Lehmann y Romano, se ve muy útil y no demasiado para mí. ¡Además, mi biblioteca posee una copia! :)
MBM
@Bullmoose lo que dice el Teorema 1 aquí es que la TV (o L1) está relacionada con la igualdad con que está relacionada con la igualdad con g_2 o g_1 (la suma mínima de errores o error tipo II con tipo controlado I). No hay desigualdades aquí. Las desigualdades se producen cuando necesitas pasar de L1 a Kullback. A1
robin girard
Desafortunadamente, solo tengo antecedentes mínimos en la teoría de la medida. Creo que entiendo qué son y , pero no tengo claro . Digamos que tengo dos distribuciones gaussianas. El televisor (o L1) entre ellos es Pero, ¿cuál sería ? Por definición, parece ...g1g2A1
12π|exp(x2/2σ12)σ1exp(x2/2σ22)σ2|dx
A1
12πmin(exp(x2/2σ12)σ1,exp(x2/2σ22)σ2)dx
MBM
... pero ¿cómo a esto desde la primera viñeta del teorema? (ν1+ν2)
MBM
1

Responda a su primera pregunta: Sí, uno menos la distancia de variación total es un límite inferior en la suma de las tasas de error Tipo I + Tipo II. Este límite inferior se aplica sin importar el algoritmo de prueba de hipótesis que elija.

Justificación: La respuesta que obtuvo en Math.SE proporciona la prueba estándar de este hecho. Arreglar una prueba de hipótesis. Supongamos que denota el conjunto de resultados en los que esta prueba rechazará la hipótesis nula (dicho conjunto siempre debe existir). Luego, el cálculo en la respuesta Math.SE prueba el límite inferior.A

(Hablando estrictamente, esta línea de razonamiento asume que su prueba de hipótesis es un procedimiento determinista. Pero incluso si considera procedimientos aleatorios, es posible demostrar que el mismo límite todavía se aplica).

DW
fuente