Usando un modelo de regresión para hacer predicciones: ¿Cuándo parar?

9

Calculé un modelo de regresión lineal simple a partir de las medidas de mi experimento para hacer predicciones. He leído que no debe calcular predicciones para puntos que se alejan demasiado de los datos disponibles. Sin embargo, no pude encontrar ninguna guía para ayudarme a saber hasta dónde puedo extrapolar. Por ejemplo, si calculo la velocidad de lectura para un tamaño de disco de 50 GB, supongo que el resultado será cercano a la realidad. ¿Qué pasa con un tamaño de disco de 100 GB, 500 GB? ¿Cómo sé si mis predicciones están cerca de la realidad?

Los detalles de mi experimento son:

Estoy midiendo la velocidad de lectura de un software usando diferentes tamaños de disco. Hasta ahora lo he medido con 5GB a 30GB aumentando el tamaño del disco de 5GB entre experimentos (6 medidas en total).

Mis resultados son lineales y los errores estándar son pequeños, en mi opinión.

Flanfl
fuente
2
Creo que para obtener respuestas útiles, necesitará ampliar y aclarar su segunda oración.
rolando2
rolando2 tiene razón. ¿Qué quieres decir con "demasiadas predicciones"?
David Robinson
No puedo encontrar los términos exactos que se han utilizado en el documento que he leído. La idea está "demasiado lejos de mis medidas originales". Así que he medido la velocidad de lectura con un disco de 30 GB. Si pronostico la velocidad de lectura para un disco de 100GB, ¿está "demasiado lejos"?
Flanfl
La respuesta de Gung es suficiente para describir los problemas involucrados. Una cosa adicional que puede ayudar en su caso específico es considerar el proceso físico involucrado en la lectura de software. ¿Qué tipo de operaciones deben llevarse a cabo? ¿necesita el software organizar u ordenar el disco como parte del proceso de lectura? estas preguntas ayudarán a proporcionar unas bases para la asunción de linealidad
probabilityislogic

Respuestas:

19

El término que está buscando es 'extrapolación'. El problema es que no importa cuántos datos tenga y cuántos niveles intermedios tenga entre sus puntos finales en el tamaño del disco (es decir, entre 5 y 30), siempre es posible que exista algún grado de curvatura en la verdadera función subyacente , que simplemente no tienes el poder de detectar. Como resultado, cuando extrapola lejos del punto final, lo que era un pequeño grado de curvatura se magnifica, ya que la verdadera función se aleja más y más de su línea de ajuste. Otra posibilidad es que la verdadera función realmente sea perfectamente recta dentro del rango examinado, pero que tal vez haya un punto de cambio a cierta distancia del punto final en su estudio. Es imposible descartar este tipo de cosas; La pregunta es, ¿Qué tan probables son y qué tan inexacta sería su predicción si resultan ser reales? No sé cómo proporcionar una respuesta analítica a esas preguntas. Mi presentimiento es que 500 está muy lejos cuando el rango en estudio era [5, 30], pero no hay ninguna razón real para pensar que mis corazonadas valen más la pena que las suyas. Las fórmulas estándar para calcular los intervalos de predicción le mostrarán un intervalo de expansión a medida que se aleja de , ver cómo se ve ese intervalo podría ser útil. No obstante, debe tener en cuenta que está haciendo una suposición teórica de que la línea realmente es perfectamente recta, y sigue siendo así hasta elvalorxque utilizará para la predicción. La legitimidad de esa predicción depende tanto de los datos y el ajuste, como de esa suposición. X¯X

gung - Restablece a Monica
fuente
2
Totalmente de acuerdo (+1). La respuesta a esta pregunta no puede ser estrictamente estadística. ¡Hablar con un ingeniero de software e informática sería relevante aquí!
Dominic Comtois
Gracias por la respuesta, es realmente útil. Soy autodidacta, por lo que me faltan muchos conocimientos básicos (como conocer el vocabulario).
Flanfl
¿No podría considerarse el inverso del ancho del intervalo de confianza algún tipo de indicador de "fuerza" de predicción? Obviamente habría que elegir algunos valores arbitrarios para hacer uso de ella ..
naught101
2
@ naught101, si está dispuesto a asumir que la línea de regresión es perfectamente recta, entonces el ancho del intervalo de predicción se puede considerar como una medida de la fuerza de la predicción (con intervalos más amplios que indican predicciones más débiles), pero sigue siendo dependiendo de esa suposición.
gung - Restablece a Monica
7

Permítanme agregar algunos puntos a la excelente respuesta de @gung:

  • Dependiendo de su campo, puede haber normas relevantes (como en DIN / EN o ISO). Esto probablemente no sea un problema para predecir la velocidad de lectura del disco duro, pero, por ejemplo, en química analítica, la regla no es la extrapolación . Período. Si desea llegar hasta 500 GB, vaya y realice algunas mediciones hasta 500 GB incluidos.

  • La forma habitual de configurar un modelo lineal tiene dos supuestos importantes

    • Obviamente, que la función es lineal. En la práctica, generalmente no es una muy buena suposición de que la linealidad se extiende hasta el infinito. Por ejemplo, ¿puede esperar aún encontrar linealidad si lee cantidades mayores que el volumen del disco duro?

    • X

  • Incluso si se cumplen estos supuestos, considere qué tan grande es realmente el intervalo de predicción para ese tipo de extrapolación:

    rango de calibración de lm lm extrapolación


    Xt

cbeleites descontentos con SX
fuente
1
+1, el supuesto de homocedasticidad en particular es una buena adición a la discusión aquí. ( "Punto" Pequeña nota, por, qué se refiere Período. Como una manera de hacer hincapié en la finalidad de la norma establecida en la frase anterior?)
Gung - Restablecer Mónica
@gung: Si período es la palabra, entonces eso es lo que quiero decir :-) gracias.
Cbeleites descontento con SX
2
Llamar a un punto "punto" solo se usa realmente en la terminología de la computadora y especialmente para las URL (por ejemplo, "stats dot stackexchange dot com"). Es un uso bastante nuevo en inglés, probablemente de unos 20 años.
gung - Restablece a Monica
1
Gracias por tus puntos adicionales. ¡Terminé mi trabajo hace un tiempo pero espero que ambas respuestas a esta pregunta ayuden a otros estudiantes!
Flanfl