Me gustaría clasificar los puntos de datos como que necesitan un modelo más complejo o que no necesitan un modelo más complejo. Mi pensamiento actual es ajustar todos los datos a un modelo lineal simple y observar el tamaño de los residuos para hacer esta clasificación. Luego leí un poco sobre las contribuciones al error y al sesgo, y me di cuenta de que si pudiera calcular el sesgo directamente, podría ser una mejor medida que trabajar con el error total (residual o residual estandarizado).
¿Es posible estimar el sesgo directamente con un modelo lineal? ¿Con o sin datos de prueba? ¿La validación cruzada ayudaría aquí?
Si no, ¿se puede usar un conjunto de bootstrapping promedio de modelos lineales (creo que se llama embolsado) para aproximar el sesgo?
Respuestas:
Por lo general, no puede descomponer el error (residuos) en componentes de sesgo y varianza. La razón simple es que generalmente no conoce la verdadera función. Recordemos que y que f ( x )b i a s ( f^( x ) ) = E[ f^( x ) - f( x ) ] , F( x ) es la cosa desconocida desea estimar.
¿Qué pasa con bootstrapping? Es posible estimar el sesgo de un estimador de arranque, pero no se trata de modelos de embolsado, y no creo que hay una manera de utilizar el sistema de arranque para evaluar el sesgo en f ( x ) , porque se basa todavía bootstrapping en alguna noción de la Verdad y no puede, a pesar de los orígenes de su nombre, crear algo de la nada.F^( X ) ,
Para aclarar: la estimación bootstrap de sesgo en el estimador θ es ^ b i un sθ^
con siendo la media de la estadística calculada sobreBmuestras de arranque. Este proceso emula el de muestreo de alguna población y el cálculo de su cantidad de interés. Esto sólo funciona si θθ^∗( ⋅ ) si θ^ podría, en principio, ser calculado directamente de la población. La estimación de inicialización del sesgo evalúa si la estimación del complemento, es decir, simplemente haciendo el mismo cálculo en una muestra en lugar de en la población, está sesgada.
Si solo desea utilizar sus residuos para evaluar el ajuste del modelo, eso es completamente posible. Si usted, como dice en los comentarios, desea comparar los modelos anidados y f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 , usted puede hacer ANOVA para verificar si el modelo más grande reduce significativamente la suma del error al cuadrado.F1(x ) = 3 x1+ 2 x2 F2( x ) = 3 x1+ 2 x2+ x1X2
fuente
Una situación en la que puede obtener una estimación de la descomposición es si tiene puntos replicados (es decir, tener más de una respuesta para varias combinaciones de predictores).
Esto se limita principalmente a situaciones en las que tiene control de las variables independientes (como en los experimentos) o donde todas son discretas (cuando no hay demasiadas combinaciones xy puede tomar una muestra lo suficientemente grande como para que las combinaciones de valores x obtener múltiples puntos).
Los puntos replicados le brindan una forma libre de modelo de estimar la media condicional. En tales situaciones, existe la posibilidad de descomposición de la suma residual de cuadrados en puro error y falta de ajuste , pero también tiene estimaciones directas (aunque necesariamente ruidosas) del sesgo en cada combinación de valores x para los que tiene múltiples respuestas.
fuente
En el reino de filtrado de Kalman algo más complejo, a veces las personas prueban los residuos (mediciones observadas menos mediciones predichas) para buscar cambios en el modelo o condiciones de falla. En teoría, si el modelo es perfecto y el ruido es gaussiano, entonces los residuos también deberían ser gaussianos con media cero y también ser consistentes con una matriz de covarianza predicha. Las personas pueden evaluar la media distinta de cero con pruebas secuenciales como una Prueba de razón de probabilidad secuencial (SPRT). Su situación es diferente porque tiene un lote fijo de datos en lugar de un flujo constante de datos nuevos. Pero la idea básica de mirar la distribución muestral de los residuos aún podría aplicarse.
Indicas que el proceso que estás modelando puede cambiar ocasionalmente. Luego, para hacer más con los datos que tiene, probablemente necesite identificar otros factores que causan ese cambio. Considere 2 posibilidades: (1) tal vez necesite modelos locales en lugar de un modelo global, por ejemplo, porque hay severas no linealidades solo en algunas regiones operativas, o (2), tal vez el proceso cambie con el tiempo.
Si este es un sistema físico, y sus muestras no se toman con intervalos de tiempo enormes, es posible que estos cambios en el proceso persistan durante períodos de tiempo significativos. Es decir, los parámetros verdaderos del modelo pueden cambiar ocasionalmente, persistiendo durante un período de tiempo. Si sus datos tienen una marca de tiempo, puede observar los residuos con el tiempo. Por ejemplo, supongamos que ha ajustado y = Ax + b usando todos sus datos, encontrando A y b. Luego regrese y pruebe la secuencia residual r [k] = y [k] - Ax [k] - b, donde k es un índice correspondiente a los tiempos en orden secuencial. Busque patrones a lo largo del tiempo, por ejemplo, períodos donde las estadísticas de resumen como || r [k] || permanece más alto de lo normal por algún tiempo. Las pruebas secuenciales serían las más sensibles para detectar tipos de errores de sesgo sostenido, algo así como SPRT o incluso CUSUM para índices de vectores individuales.
fuente
La respuesta es no , porque el sesgo y la varianza son atributos de los parámetros del modelo, en lugar de los datos utilizados para estimarlos. Hay una excepción parcial a esa declaración que se refiere al sesgo y la variación que varía (¡ja!) A través del espacio predictor; más sobre eso a continuación. Tenga en cuenta que esto no tiene absolutamente nada que ver con conocer alguna función "verdadera" que relacione los predictores y las variables de respuesta.
Hay formas correspondientes de relacionar el sesgo y la varianza con los datos en sí, pero son un poco más complicados. Como puede ver, el sesgo y la varianza se pueden estimar para los modelos lineales, pero necesitará bastante información de retención. Un problema más insidioso es el hecho de que una vez que comience a trabajar con un conjunto de datos fijo, sus análisis se verán contaminados por su variación personal , ya que ya habrá comenzado a vagar por el jardín de caminos bifurcados y no hay forma de saber cómo se replicaría fuera de la muestra (a menos que se le ocurra un solo modelo y ejecute este análisis y se comprometa a dejarlo solo después de eso).
fuente