La precisión se define como:
p = true positives / (true positives + false positives)
¿Es cierto que, como true positives
y false positives
enfoque 0, la precisión se aproxima a 1?
La misma pregunta para recordar:
r = true positives / (true positives + false negatives)
Actualmente estoy implementando una prueba estadística en la que necesito calcular estos valores, y a veces sucede que el denominador es 0, y me pregunto qué valor devolver para este caso.
PD: Disculpen la etiqueta apropiada, que quería utilizar recall
, precision
y limit
, pero no puede crear nuevas etiquetas.
precision-recall
data-visualization
logarithm
references
r
networks
data-visualization
standard-deviation
probability
binomial
negative-binomial
r
categorical-data
aggregation
plyr
survival
python
regression
r
t-test
bayesian
logistic
data-transformation
confidence-interval
t-test
interpretation
distributions
data-visualization
pca
genetics
r
finance
maximum
probability
standard-deviation
probability
r
information-theory
references
computational-statistics
computing
references
engineering-statistics
t-test
hypothesis-testing
independence
definition
r
censoring
negative-binomial
poisson-distribution
variance
mixed-model
correlation
intraclass-correlation
aggregation
interpretation
effect-size
hypothesis-testing
goodness-of-fit
normality-assumption
small-sample
distributions
regression
normality-assumption
t-test
anova
confidence-interval
z-statistic
finance
hypothesis-testing
mean
model-selection
information-geometry
bayesian
frequentist
terminology
type-i-and-ii-errors
cross-validation
smoothing
splines
data-transformation
normality-assumption
variance-stabilizing
r
spss
stata
python
correlation
logistic
logit
link-function
regression
predictor
pca
factor-analysis
r
bayesian
maximum-likelihood
mcmc
conditional-probability
statistical-significance
chi-squared
proportion
estimation
error
shrinkage
application
steins-phenomenon
Björn Pollex
fuente
fuente
Respuestas:
Dada una matriz de confusión:
lo sabemos:
Consideremos los casos donde el denominador es cero:
fuente
La respuesta es sí. Los casos de borde indefinidos ocurren cuando los verdaderos positivos (TP) son 0 ya que esto está en el denominador de ambos P y R. En este caso,
Esta es una reformulación del comentario de @ mbq.
fuente
Estoy familiarizado con diferentes terminologías. Lo que usted llama precisión, valor predictivo positivo (PPV). Y lo que llamas recordar llamaría sensibilidad (Sens). :
http://en.wikipedia.org/wiki/Receiver_operating_characteristic
En el caso de la sensibilidad (recuperación), si el denominador es cero (como señala Amro), NO hay casos positivos, por lo que la clasificación no tiene sentido. (Eso no impide que TP o FN sean cero, lo que daría como resultado una sensibilidad limitante de 1 o 0. Estos puntos están respectivamente en las esquinas superior derecha e inferior izquierda de la curva ROC - TPR = 1 y TPR = 0. )
Sin embargo, el límite de PPV es significativo. Es posible que el límite de prueba se establezca tan alto (o bajo) que todos los casos se predigan como negativos. Esto está en el origen de la curva ROC. El valor límite del PPV justo antes de que el límite alcance el origen puede estimarse considerando el segmento final de la curva ROC justo antes del origen. (Esto puede ser mejor modelar ya que las curvas ROC son notoriamente ruidosas).
Por ejemplo, si hay 100 positivos reales y 100 negativos reales y el segmento final de la curva ROC se aproxima desde TPR = 0.08, FPR = 0.02, entonces el PPV limitante sería PPR ~ 0.08 * 100 / (0.08 * 100 + 0.02 * 100 ) = 8/10 = 0.8 es decir, 80% de probabilidad de ser un verdadero positivo.
En la práctica, cada muestra está representada por un segmento en la curva ROC: horizontal para un negativo real y vertical para un positivo real. Se podría estimar el PPV limitante por el último segmento antes del origen, pero eso daría un PPV limitante estimado de 1, 0 o 0,5, dependiendo de si la última muestra fue un verdadero positivo, un falso positivo (negativo real) o hecho de igual TP y FP. Un enfoque de modelado sería mejor, tal vez suponiendo que los datos sean binormales, una suposición común, por ejemplo: http://mdm.sagepub.com/content/8/3/197.short
fuente
Eso dependería de lo que quiere decir con "enfoque 0". Si los falsos positivos y los falsos negativos se acercan a cero a un ritmo más rápido que los verdaderos positivos, entonces sí a ambas preguntas. Pero por lo demás, no necesariamente.
fuente