umbral de cálculo para el clasificador de riesgo mínimo?

11

Suponga que dos clases y tienen un atributo tienen distribución y . si tenemos igual para la siguiente matriz de costos:C1C2xN(0,0.5)N(1,0.5)P(C1)=P(C2)=0.5

L=[00.510]

¿Por qué, es el umbral para el clasificador de riesgo mínimo (costo)?x0<0.5

Este es mi ejemplo de nota que no entiendo (es decir, ¿cómo se alcanza este umbral?)

Edición 1: creo que para umbrales de razón de probabilidad podemos usar P (C1) / P (C2).

Edición 2: agrego de Duda Book on Pattern un texto sobre el umbral. ingrese la descripción de la imagen aquí

usuario153695
fuente

Respuestas:

4

Para una matriz de costos

L=[00.510]c1c2predictionc1c2truth

la pérdida de predecir la clase cuando la verdad es la clase es , y el costo de predecir la clase cuando la verdad es la clase es . No hay costo para las predicciones correctas, . El riesgo condicional para predecir cualquiera de las clases es entoncesc1c2L12=0.5c2c1L21=1L11=L22=0Rk

R(c1|x)=L11Pr(c1|x)+L12Pr(c2|x)=L12Pr(c2|x)R(c2|x)=L22Pr(c2|x)+L21Pr(c1|x)=L21Pr(c1|x)
Para un consulte estas notas en la página 15.

Para minimizar el riesgo / pérdida, predice si el costo del error de hacerlo (es la pérdida de la predicción incorrecta multiplicada por la probabilidad posterior de que la predicción sea incorrecta ) es menor que el costo de predecir erróneamente la alternativa,c1L12Pr(c2|x)

L12Pr(c2|x)<L21Pr(c1|x)L12Pr(x|c2)Pr(c2)<L21Pr(x|c1)Pr(c1)L12Pr(c2)L21Pr(c1)<Pr(x|c1)Pr(x|c2)
donde la segunda línea usa la regla de Bayes . Dadas las mismas probabilidades previas obtienes Pr(c2|x)Pr(x|c2)Pr(c2)Pr(c1)=Pr(c2)=0.5
12<Pr(x|c1)Pr(x|c2)

por lo tanto, elige clasificar una observación como la razón de probabilidad supera este umbral. Ahora no tengo claro si quería saber el "mejor umbral" en términos de las razones de probabilidad o en términos del atributo . La respuesta cambia según la función de costo. Usando el gaussiano en la desigualdad con y , , c1xσ1=σ2=σμ1=0μ2=1

12<12πσexp[12σ2(xμ1)2]12πσexp[12σ2(xμ2)2]log(12)<log(12πσ)12σ2(x0)2[log(12πσ)12σ2(x1)2]log(12)<x22σ2+x22σ22x2σ2+12σ2xσ2<12σ2log(12)x<12log(12)σ2
por lo que un umbral de predicción en términos dexmientras busca solo puede lograrse si las pérdidas de predicciones falsas son las mismas, es decir, porque solo entonces puede tener y obtienes .L12=L21log(L12L21)=log(1)=0x0<12
Andy
fuente
Buena respuesta, pero me confundió! si desea elegir o , ¿cuál es la correcta? x0=0.5x0<0.5
user153695
Entonces, justo en el límite de decisión no se puede saber exactamente si una observación debe estar en la clase uno o dos (porque está exactamente en el límite). Así que la elección sea la observación debería estar en la clase 1 si o depende de usted. Con muestras lo suficientemente grandes, esto debería suceder para muy pocas observaciones, por lo que en el margen importará basura para su resultado. x0=0.5ix00.5x0<0.5
Andy
todo mi problema que lo recompensó con mi profesor. calculado y no acepta por favor vea mi edición en cuestión, el umbral delgado debería ser . x0<0.5x0=0.5x0<0.5
user153695
quizás 0.5-ln :)
user153695
1
@whuber gracias, lo perdí por completo, así que comencé desde un final completamente equivocado.
Andy