Estoy estudiando un curso de aprendizaje automático y las diapositivas de la conferencia contienen información que encuentro contradictoria con el libro recomendado.
El problema es el siguiente: hay tres clasificadores:
- clasificador A que proporciona un mejor rendimiento en el rango inferior de los umbrales,
- clasificador B que proporciona un mejor rendimiento en el rango más alto de los umbrales,
- clasificador C lo que obtenemos volteando una p-moneda y seleccionando entre los dos clasificadores.
¿Cuál será el rendimiento del clasificador C, como se ve en una curva ROC?
Las diapositivas de la conferencia indican que con solo lanzar esta moneda, obtendremos el mágico " casco convexo " de la curva ROC del clasificador A y B.
No entiendo este punto. Simplemente lanzando una moneda, ¿cómo podemos obtener información?
La diapositiva de la conferencia
Lo que dice el libro
El libro recomendado ( Data Mining ... por Ian H. Witten, Eibe Frank y Mark A. Hall ) por otro lado afirma que:
Para ver esto, elija un límite de probabilidad particular para el método A que proporcione tasas positivas verdaderas y falsas de tA y fA, respectivamente, y otro límite para el método B que proporcione tB y fB. Si utiliza estos dos esquemas al azar con probabilidades p y q, donde p + q = 1, obtendrá tasas positivas verdaderas y falsas de p. tA + q. tB y p. fA + q. pensión completa. Esto representa un punto que se encuentra en la línea recta que une los puntos (tA, fA) y (tB, fB), y al variar p y q puede trazar la línea completa entre estos dos puntos.
Según tengo entendido, lo que dice el libro es que para obtener información y llegar al casco convexo, necesitamos hacer algo más avanzado que simplemente lanzar una moneda p.
AFAIK, la forma correcta (como lo sugiere el libro) es la siguiente:
- deberíamos encontrar un umbral óptimo Oa para el clasificador A
- deberíamos encontrar un umbral óptimo Ob para el clasificador B
defina C de la siguiente manera:
- Si t <Oa, use el clasificador A con t
- Si t> Ob, use el clasificador B con t
- Si Oa <t <Ob, elija entre el clasificador A con Oa y B con Ob por la probabilidad como una combinación lineal de dónde estamos entre Oa y Ob.
¿Es esto correcto? En caso afirmativo, hay algunas diferencias clave en comparación con lo que sugieren las diapositivas.
- No es un simple lanzamiento de moneda, sino un algoritmo más avanzado que necesita puntos y selecciones definidas manualmente en función de la región en la que caemos.
- Nunca usa el clasificador A y B con valores umbral entre Oa y Ob.
¿Puede explicarme este problema y cuál es la forma correcta de entenderlo si mi comprensión no es correcta?
¿Qué sucedería si simplemente volteáramos una moneda p como lo sugieren las diapositivas? Creo que obtendríamos una curva ROC que está entre A y B, pero nunca "mejor" que la mejor en un punto dado.
Por lo que puedo ver, realmente no entiendo cómo las diapositivas podrían ser correctas. El cálculo probabilístico en el lado izquierdo no tiene sentido para mí.
Actualización: encontré el artículo escrito por el autor original que inventó el método de casco convexo: http://www.bmva.org/bmvc/1998/pdf/p082.pdf
Respuestas:
(Editado)
Las diapositivas de la conferencia son correctas.
El Método A tiene un "punto óptimo" que proporciona tasas positivas verdaderas y falsas de (TPA, FPA en el gráfico) respectivamente. Este punto correspondería a un umbral, o más en general [*] un límite de decisión óptimo para A. Lo mismo ocurre con B. (Pero los umbrales y los límites no están relacionados).
Se ve que el clasificador A funciona bien bajo la preferencia "minimizar los falsos positivos" (estrategia conservadora) y el clasificador B cuando queremos "maximizar los verdaderos positivos" (estrategia entusiasta).
La respuesta a su primera pregunta es básicamente sí, excepto que la probabilidad de la moneda es (en cierto sentido) arbitraria. El clasiffier final sería:(Corregido: en realidad, las conferencias son completamente correctas, podemos lanzar la moneda en cualquier caso. Ver diagramas)
[*] Deberías ser general aquí: si piensas en términos de un solo umbral escalar, todo esto tiene poco sentido; una característica unidimensional con un clasificador basado en el umbral no le brinda suficientes grados de libertad para tener diferentes clasificadores como A y B, que se desempeñan a lo largo de diferentes curvas cuando los parámetros libres (límite de decisión = umbral) varían. En otras palabras: A y B se llaman "métodos" o "sistemas", no "clasificadores"; porque A es una familia completa de clasificadores, parametrizados por algún parámetro (escalar) que determina un límite de decisión, no solo un escalar]
Agregué algunos diagramas para que quede más claro:
En este escenario, entonces, se puede decir que la línea naranja llena es el "clasificador A óptimo" (dentro de su familia), y lo mismo para B. Pero no se puede decir si la línea naranja es mejor que la línea azul: uno realiza mejor cuando asignamos un alto costo a los falsos positivos, y el otro cuando los falsos negativos son mucho más costosos.
Ahora, puede suceder que estos dos clasificadores sean demasiado extremos para nuestras necesidades, nos gustaría que ambos tipos de errores tengan pesos similares. Preferiríamos, en lugar de usar el clasificador A (punto naranja) o B (punto azul) para lograr un rendimiento que está entre ellos. Como dice el curso, uno puede lograr ese resultado con solo lanzar una moneda y elegir uno de los clasificadores al azar.
No ganamos información. Nuestro nuevo clasificador aleatorio no es simplemente "mejor" que A o B, su rendimiento es una especie de promedio de A y B, en lo que respecta a los costos asignados a cada tipo de error. Eso puede ser o no beneficioso para nosotros, dependiendo de cuáles sean nuestros costos.
fuente
Estoy de acuerdo con tu razonamiento. Si usa el clasificador lanzando monedas para elegir uno cuando se encuentra entre los puntos A y B, ¡su punto en la curva siempre estará por debajo del mejor clasificador y por encima del peor, y posiblemente no por encima de ambos! Debe haber algo mal con el diagrama. En el punto donde las 2 curvas ROC se cruzan, el algoritmo de selección aleatoria tendrá el mismo rendimiento que los dos algoritmos. No estará por encima de la forma en que lo representa el diagrama.
fuente