Prueba de proporciones y clasificador binario

Tengo una máquina prototipo que produce piezas.

En una primera prueba, la máquina produce partes y un clasificador binario me dice que partes son defectuosas ( , generalmente y ) y partes son buenas. $N_1$ $d_1$ $d_1 < N_1$ $d_1/N_1<0.01$ $N_1\approx10^4$ $N_1-d_1$

Luego, un técnico realiza algunos cambios en la máquina para disminuir la cantidad de piezas defectuosas.

En una segunda prueba y después, la máquina modificada produce $N_2$ partes y el mismo clasificador binario (sin tocar) me dice que $d_2$ partes son defectuosas, de todos modos $d_2/N_2$ es bastante similar a $d_1/N_1$ .

Al técnico le gustaría saber si sus cambios son efectivos.

Suponiendo que los clasificadores son perfectos (su sensibilidad es del 100% y su especificidad es del 100%), puedo realizar una prueba de proporciones (con R, simplemente escribo prop.test(c(d1,d2),c(N1,N2))).

Pero el clasificador no es perfecto, entonces, ¿cómo puedo tener en cuenta la sensibilidad y la especificidad, ambas desconocidas, del clasificador para responder adecuadamente al técnico?

hypothesis-testing statistical-significance classification proportion Alessandro Jacopson
fuente

¿Puedes confirmar la tasa de precisión del clasificador?

Michelle

@Michelle Sé sin error y pero no sé cuántas piezas defectuosas se clasifican erróneamente como buenas.

d_{1}

$d_1$

d_{2}

$d_2$

Alessandro Jacopson

Hola de nuevo. ¿Puedes hacer una muestra aleatoria de las partes buenas de N1 y N2, por separado, para estimar la tasa de falsos positivos?

Michelle

Con esta información, ¿puede usar este método para comparar los cambios? onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract también vea aquí ncbi.nlm.nih.gov/pubmed/18224558 y otra idea aquí, texto completo: stat.colostate.edu/~bradb/papers/lrgraphfinal. pdf

Michelle

(+1) esta es una gran pregunta!

steffen

Así que estoy derivando esto de los primeros principios, y por lo tanto no estoy seguro de que sea correcto. Aquí están mis pensamientos:

EDITAR: Esto no estaba del todo bien antes. Lo he actualizado

Dejemos que denote la diferencia esperada entre el número real de verdaderos positivos y el número de salida del clasificador binario que llamaremos . Puede medir esto ejecutando su clasificador en un conjunto con etiquetas conocidas. Reste el número de positivos reales del número de positivos producidos por el clasificador, y luego divida por para obtener . $\alpha$ $d_1$ $\hat{d_1}$ $N$ $\alpha$
Entonces, una estimación puntual de la relación real de partes defectuosas viene dada por: . Es decir, el número observado de partes defectuosas, menos el número esperado de falsos positivos, más el número esperado de falsos negativos. $\hat{\frac{d_1}{N_1}} = \frac{d_1 + \alpha * N_1}{N_1}$
Del mismo modo, $\hat{\frac{d_2}{N_2}} = \frac{d_2 + \alpha * N_2}{N_2}$
Entonces, ahora hagamos una prueba de utilería. En la prueba de apoyo estándar, primero calculamos la relación agrupada utilizada como valor nulo: . Así que aquí, ponemos nuestras estimaciones puntuales de $p= \frac{p_1*N_1 + p_2*N_2}{N_1 + N_2}$ y $\hat{\frac{d_1}{N_1}}$ para obtener: $\hat{\frac{d_2}{N_2}}$ $p= \frac{d_1 + d_2 + \alpha * (N_1 + N_2)}{N_1 + N_2}$
Y luego el error estándar es el habitual: $\sqrt{p*(1-p)*(\frac{1}{N_1} + \frac{1}{N_2})}$
Y la estadística de prueba es la misma: $z = \frac{\frac{d_1}{N_1} - \frac{d_2}{N_2}}{se}$

Algunas reflexiones sobre la interpretación:

El modelo puede producir valores imaginarios para error estándar. Esto sucederá cuando , que será el caso cuando el número de errores que esperamos que produzcan los clasificadores exceda el número que observamos. Por ejemplo, supongamos que esperamos que nuestro clasificador produzca un promedio de 5 positivos incluso cuando se le da una muestra que no contiene positivos. Si observamos 4 positivos, entonces es como si no hubiera señal: nuestro resultado es indistinguible del ruido producido por el clasificador. En este caso, no deberíamos rechazar la hipótesis nula, creo. $p < 0$
Otra forma de pensar en esto es que, si el número de partes defectuosas está dentro del margen de error para el clasificador, entonces, por supuesto, no podemos decir si hay una diferencia: ¡ni siquiera podemos decir si alguna parte es defectuosa!

Incorporación de errores en la estimación de : $\alpha$

Pensé en esto un poco más, y creo que hay varias formas de hacerlo, pero esencialmente desea obtener una estimación de la distribución de . Lo ideal sería hacer esta compra repitiendo su procedimiento para obtener la estimación de en una muestra representativa de los conjuntos de datos en los que pretende utilizar este método. Si esto no es posible, puede iniciar un único conjunto de datos extrayendo muestras de él, aunque esto no es ideal a menos que su único conjunto de datos sea representativo de todos los conjuntos que le interesan. $\alpha$ $\alpha$

Supongamos que queremos calcular un intervalo de confianza con una confianza de . $h$

Calcular empíricamente la $\frac{h}{2}$ $\alpha$ $\alpha$ $\frac{h}{2}$ $low_l, low_r)$ $(high_l, high_r)$ $\alpha$ $(high_l,low_r)$ (que contiene los dos intervalos anteriores) debería ser un (1-h) * 100% CI para la diferencia en las proporciones ... Creo ...

$\alpha$

John Doucette
fuente

+1, gracias. En 6 escribiste "estático", ¿querías decir "estadística"?

Alessandro Jacopson

p < 0

$p<0$

0 < p < 1

$0<p<1$

0 < p < 1

$0<p<1$

0.01 (N 1 - d 1) \approx 100

$0.01(N1−d1)\approx100$

β = \frac{7}{100}

$\beta=\frac{7}{100}$

β

$\beta$

β

$\beta$ prop.test(7,100)

@uvts_cvs Sí, eso debería ser "estadística". Lo arreglaré en un momento. También hay un error tipográfico en el cálculo del error estándar, que debería ser p * (1-p) en su lugar. P siempre debe ser <1, excepto tal vez si su clasificador es realmente malo yd es grande. Para su tercer comentario, sí, esa es la idea. No estoy seguro de cómo incorporar esa estimación en el modelo. ¿Quizás alguien más aquí lo sabe?

John Doucette el

α

$\alpha$

β

$\beta$

Prueba de proporciones y clasificador binario

Respuestas: