Intervalo de predicción basado en validación cruzada (CV)

19

En los libros de texto y las conferencias de youtube aprendí mucho sobre modelos iterativos como el impulso, pero nunca vi nada acerca de derivar un intervalo de predicción.

La validación cruzada se utiliza para lo siguiente:

  • Selección de modelo : pruebe diferentes modelos y elija el que mejor se adapte. En el caso de aumentar, use CV para seleccionar los parámetros de ajuste.
  • Evaluación del modelo : estimar el rendimiento del modelo seleccionado

Varios parámetros son importantes para la evaluación del modelo, uno de ellos es el error de predicción esperado. La validación cruzada proporciona una buena estimación del error de predicción, como se describe en el libro "Los elementos del aprendizaje estadístico".

Pero, ¿cómo usamos el error de predicción esperado para construir un intervalo de predicción?

Y si predice el precio de una casa, por ejemplo, el intervalo de predicción será mayor para una casa de 500.000 € en comparación con una casa de 200.000 €. ¿Cómo estimamos estos intervalos de predicción utilizando la validación cruzada?

Kasper
fuente
Este es un paso en la buena dirección: blog.datadive.net/prediction-intervals-for-random-forests
Kasper
Creo que lo que estás buscando son predicciones conformes. Ver el artículo de Shafer y Vovk jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf .
Alexey Zaytsev
¿Podría explicar por qué cree que el intervalo de predicción sería "mayor" para una casa de 500k en comparación con una casa de 200k? ¿Es eso una función del número de muestras? ¿Puede suponer que las muestras se extraen de la distribución total?
justanotherbrain

Respuestas:

3

Después de leer esta pregunta nuevamente, puedo darle el siguiente enlace:

Supongamos que las muestras se tomen iid, la distribución es fija, y la pérdida está limitada por , a continuación, con una probabilidad de al menos 1 - δ , E [ E ( h ) ] E ( h ) + B si1-δ

mi[mi(h)]mi^(h)+siIniciar sesión1δ2metro

donde es el tamaño de la muestra y 1 - δ es la confianza. El límite es trivial por la desigualdad de McDiarmid.metro1-δ

es el tamaño de la muestra, E [ E ( h ) ] es la generalización de error, y E ( h ) es el error de la prueba para la hipótesis.metromi[mi(h)]mi^(h)

No informe solo el error de validación cruzada ni el error de prueba, estos no tienen sentido en general, ya que son solo estimaciones puntuales.


Publicación anterior para el registro:

No estoy seguro de haber entendido completamente tu pregunta, pero la intentaré.

Primero, no estoy seguro de cómo definiría un intervalo de predicción para la selección del modelo, ya que, según tengo entendido, los intervalos de predicción hacen algunas suposiciones de distribución. En cambio, podría derivar desigualdades de concentración, que esencialmente unen una variable aleatoria por su varianza para cierta probabilidad. Las desigualdades de concentración se utilizan a través del aprendizaje automático, incluida la teoría avanzada para impulsar. En este caso, desea vincular el error de generalización (su error en general, puntos que no ha visto) con su error empírico (su error en el conjunto de prueba) más algún término de complejidad y un término que se relacione con la varianza.

Ahora necesito disipar un malentendido acerca de la validación cruzada que es extremadamente común. La validación cruzada solo le dará una estimación imparcial del error esperado de un modelo PARA UN TAMAÑO DE MUESTRA FIJO. La prueba de esto solo funciona para el protocolo de exclusión. En realidad, esto es bastante débil, ya que no proporciona información sobre la varianza. Por otro lado, la validación cruzada devolverá un modelo que está cerca de la solución de minimización del riesgo estructural, que es la mejor solución teórica. Puede encontrar la prueba en el apéndice aquí: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

Entonces, ¿cómo derivar un límite de generalización? (Recuerde que un límite de generalización es básicamente un intervalo de predicción sobre el error de generalización para un modelo específico). Bueno, estos límites son específicos del algoritmo. Desafortunadamente, solo hay un libro de texto que pone límites a todos los algoritmos comúnmente utilizados en el aprendizaje automático (incluido el refuerzo). El libro es Fundamentos del aprendizaje automático (2012) de Mohri, Rostamizadeh y Talwalkar. Para las diapositivas de conferencias que cubren el material, puede encontrarlas en la página web de Mohri: http://www.cs.nyu.edu/~mohri/ml14/

Si bien Elements of Statistical Learning es un libro importante y algo útil, no es muy riguroso y omite muchos detalles técnicos muy importantes con respecto a los algoritmos y omite por completo cualquier tipo de límites de generalización. Fundamentos del aprendizaje automático es el libro más completo para el aprendizaje automático (lo cual tiene sentido ya que fue escrito por algunos de los mejores en el campo). Sin embargo, el libro de texto es avanzado, así que tenga cuidado con los detalles técnicos.

La generalización destinada a impulsar se puede encontrar (con prueba) aquí: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

Espero que sean suficientes consejos para responder a su pregunta. Dudo en dar una respuesta completa porque tomará alrededor de 50 páginas revisar todos los detalles necesarios, y mucho menos las discusiones preliminares ...

¡Buena suerte!

justanotherbrain
fuente
Entonces, si entiendo bien, esto da un límite superior para el error de generalización para cualquier cuantil, sobre toda la distribución (basado en algunos supuestos). Sin embargo, no entiendo su oración "Por favor, no informe ni el error de validación cruzada ni el error de prueba". ¿Quiere decir que estas dos medidas son inútiles o simplemente son inútiles para tratar de encontrar un intervalo de predicción?
LouisBBBB
@LouisBBBB El error de CV y ​​el error de prueba son como informar una media de muestra. Por lo general, es una mala práctica informar la media de la muestra sin algún tipo de intervalo de confianza porque cada vez que realizo el experimento obtendré un resultado diferente. Dije que no tiene sentido, pero tal vez "inútil" es mejor ... Se podría argumentar que hay algún significado en una estimación puntual (es decir, la definición). Pero las estimaciones puntuales, en general, son "inútiles" en el sentido de que no caracterizan la distribución del error de una "manera útil". "Útil" en el contexto de la toma de decisiones.
justanotherbrain
Creo que entiendo lo que dices. Por lo tanto, prefiere analizar la distribución de errores en lugar de la media. Y si vuelvo a la pregunta, Kasper quería estimaciones de los intervalos de predicción "por punto". Su respuesta fue un límite superior global para la longitud del intervalo de predicción (o algo parecido), ¿es así? Entonces, ¿sabes una manera de obtener un límite superior local?
LouisBBBB
Ah, gracias por aclarar. Creo que entendí mal la pregunta de @ Kasper y tengo muchas preguntas de seguimiento. Gracias por señalar esto, investigaré un poco.
justanotherbrain