Calculé un modelo de regresión lineal simple a partir de las medidas de mi experimento para hacer predicciones. He leído que no debe calcular predicciones para puntos que se alejan demasiado de los datos disponibles. Sin embargo, no pude encontrar ninguna guía para ayudarme a saber hasta dónde puedo extrapolar. Por ejemplo, si calculo la velocidad de lectura para un tamaño de disco de 50 GB, supongo que el resultado será cercano a la realidad. ¿Qué pasa con un tamaño de disco de 100 GB, 500 GB? ¿Cómo sé si mis predicciones están cerca de la realidad?
Los detalles de mi experimento son:
Estoy midiendo la velocidad de lectura de un software usando diferentes tamaños de disco. Hasta ahora lo he medido con 5GB a 30GB aumentando el tamaño del disco de 5GB entre experimentos (6 medidas en total).
Mis resultados son lineales y los errores estándar son pequeños, en mi opinión.
fuente
Respuestas:
El término que está buscando es 'extrapolación'. El problema es que no importa cuántos datos tenga y cuántos niveles intermedios tenga entre sus puntos finales en el tamaño del disco (es decir, entre 5 y 30), siempre es posible que exista algún grado de curvatura en la verdadera función subyacente , que simplemente no tienes el poder de detectar. Como resultado, cuando extrapola lejos del punto final, lo que era un pequeño grado de curvatura se magnifica, ya que la verdadera función se aleja más y más de su línea de ajuste. Otra posibilidad es que la verdadera función realmente sea perfectamente recta dentro del rango examinado, pero que tal vez haya un punto de cambio a cierta distancia del punto final en su estudio. Es imposible descartar este tipo de cosas; La pregunta es, ¿Qué tan probables son y qué tan inexacta sería su predicción si resultan ser reales? No sé cómo proporcionar una respuesta analítica a esas preguntas. Mi presentimiento es que 500 está muy lejos cuando el rango en estudio era [5, 30], pero no hay ninguna razón real para pensar que mis corazonadas valen más la pena que las suyas. Las fórmulas estándar para calcular los intervalos de predicción le mostrarán un intervalo de expansión a medida que se aleja de , ver cómo se ve ese intervalo podría ser útil. No obstante, debe tener en cuenta que está haciendo una suposición teórica de que la línea realmente es perfectamente recta, y sigue siendo así hasta elvalorxque utilizará para la predicción. La legitimidad de esa predicción depende tanto de los datos y el ajuste, como de esa suposición.X¯ X
fuente
Permítanme agregar algunos puntos a la excelente respuesta de @gung:
Dependiendo de su campo, puede haber normas relevantes (como en DIN / EN o ISO). Esto probablemente no sea un problema para predecir la velocidad de lectura del disco duro, pero, por ejemplo, en química analítica, la regla no es la extrapolación . Período. Si desea llegar hasta 500 GB, vaya y realice algunas mediciones hasta 500 GB incluidos.
La forma habitual de configurar un modelo lineal tiene dos supuestos importantes
Obviamente, que la función es lineal. En la práctica, generalmente no es una muy buena suposición de que la linealidad se extiende hasta el infinito. Por ejemplo, ¿puede esperar aún encontrar linealidad si lee cantidades mayores que el volumen del disco duro?
Incluso si se cumplen estos supuestos, considere qué tan grande es realmente el intervalo de predicción para ese tipo de extrapolación:
fuente