interpretación del eje y de una parcela de dependencia parcial

22

He leído otros temas sobre las parcelas de dependencia parcial y la mayoría de ellos tratan sobre cómo los trazas realmente con diferentes paquetes, no cómo puedes interpretarlos con precisión, entonces:

He estado leyendo y creando una buena cantidad de parcelas de dependencia parcial. Sé que miden el efecto marginal de una variable χs en la función ƒS (χS) con el efecto promedio de todas las demás variables (χc) de mi modelo. Los valores y más altos significan que tienen una mayor influencia en la predicción precisa de mi clase. Sin embargo, no estoy satisfecho con esta interpretación cualitativa.

Este enlace muestra una de mis muchas parcelas.  http://imgur.com/RXqlOky

Mi modelo (bosque aleatorio) predice dos clases discretas. "Sí árboles" y "No árboles". TRI es una variable que ha demostrado ser una buena variable para esto.

Lo que comencé a pensar es que el valor Y muestra una probabilidad de clasificación correcta. Ejemplo: y (0.2) muestra que los valores TRI de> ~ 30 tienen una probabilidad del 20% de identificar correctamente una clasificación de Verdadero Positivo.

Donde a la inversa

y (-0.2) muestra que los valores TRI de <~ 15 tienen una probabilidad del 20% de identificar correctamente una clasificación Negativa Verdadera.

Las interpretaciones generales que se hacen en la literatura sonarían así: "Los valores superiores al TRI 30 comienzan a tener una influencia positiva para la clasificación en su modelo" y eso es todo. Suena tan vago e inútil para una trama que potencialmente puede hablar mucho sobre sus datos.

Además, todos mis gráficos tienen un límite de -1 a 1 en el rango para el eje y. He visto otras gráficas que son -10 a 10, etc. ¿Es esta una función de cuántas clases está tratando de predecir?

Me preguntaba si alguien puede hablar sobre este problema. Tal vez muéstrame cómo debería interpretar estas tramas o alguna literatura que pueda ayudarme. Tal vez estoy leyendo demasiado en esto?

He leído muy a fondo los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción, y ha sido un gran punto de partida, pero eso es todo.

JelenaČuklina
fuente
El gráfico muestra en promedio la probabilidad del árbol de sí hasta el TRI 30 y aumenta después de eso. Este enlace explica cómo interpretar la clasificación binaria PDP y las gráficas de variables continuas.
LazyNearestNeigbour

Respuestas:

13

Cada punto en el gráfico de dependencia parcial es el porcentaje de voto promedio a favor de la clase "Sí árboles" en todas las observaciones, dado un nivel fijo de TRI.

No es una probabilidad de clasificación correcta. No tiene absolutamente nada que ver con precisión, verdaderos negativos y verdaderos positivos.

Cuando veas la frase

Los valores superiores al TRI 30 comienzan a tener una influencia positiva para la clasificación en su modelo

es una forma hinchada de decir

Los valores superiores al TRI 30 comienzan a predecir "Sí árboles" con más fuerza que los valores inferiores al TRI 30

Shadowtalker
fuente
2

La función de dependencia parcial básicamente le proporciona la tendencia "promedio" de esa variable (integrando todas las demás en el modelo). Es la forma de esa tendencia lo que es "importante". Puede interpretar el rango relativo de estos gráficos a partir de diferentes variables predictoras, pero no el rango absoluto. Espero que ayude.

thiakx
fuente
2

Una forma de ver los valores del eje y es que son relativos entre sí en los otros gráficos. Cuando ese número es más alto que en los otros gráficos en valores absolutos, significa que es más importante porque el impacto de esa variable en la salida es mayor.

Si está interesado en las matemáticas detrás de las parcelas de dependencia parcial y cómo ese número es estimado, puede encontrarlo aquí: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf sección 8.1

usuario3386377
fuente