Actualmente estoy en un proyecto donde básicamente necesito, como todos lo hacemos, comprender cómo se relaciona la salida con la entrada . La particularidad aquí es que los datos son proporcionados de una en una, por lo que quiero actualizar mi análisis cada vez que recibo un nuevo . Creo que esto se llama procesamiento "en línea", en oposición al procesamiento "por lotes", donde tiene todos los datos necesarios y realiza sus cálculos utilizando todos los datos al mismo tiempo.( y , x ) ( y , x )
Así que busqué ideas y finalmente llegué a la conclusión de que el mundo está dividido en tres:
La primera parte es la tierra de las estadísticas y la econometría. La gente allí hace OLS, GLS, variables de instrumentos, ARIMA, pruebas, diferencia de diferencias, PCA y otras cosas. Esta tierra está dominada principalmente por la linealidad y solo realiza el procesamiento "por lotes".
La segunda parte es la isla del aprendizaje automático y otras palabras como inteligencia artificial, aprendizaje supervisado y no supervisado, redes neuronales y SVM. Tanto el procesamiento "por lotes" como el "en línea" se realizan aquí.
La tercera parte es un continente entero que acabo de descubrir, en su mayoría poblado por ingenieros eléctricos, por lo que parece. Allí, las personas a menudo agregan la palabra "filtro" a sus herramientas, e inventaron grandes cosas como el algoritmo de Widrow-Hoff, los mínimos cuadrados recursivos , el filtro de Wiener , el filtro de Kalman y probablemente otras cosas que aún no he descubierto. Aparentemente, realizan principalmente el procesamiento "en línea", ya que se adapta mejor a sus necesidades.
Entonces mi pregunta es, ¿tiene una visión global de todo esto? Tengo la impresión de que estas tres partes del mundo no hablan demasiado entre sí. ¿Me equivoco? ¿Existe una gran teoría unificada de comprensión de cómo relaciona con ? ¿Conoces algún recurso donde se puedan establecer las bases de esa teoría?X
No estoy seguro de si esta pregunta realmente tiene sentido, pero estoy un poco perdido entre todas esas teorías. Me imagino la respuesta a la pregunta "¿debería usar esto o aquello?" sería "depende de lo que quieras hacer (y de tus datos)". Sin embargo, siento que esos tres mundos intentan responder a la misma pregunta ( ?) Y, por lo tanto, debería ser posible tener una visión más alta de todo esto y comprender profundamente lo que hace que cada técnica sea particular.
fuente
Respuestas:
En términos de lote versus en línea, mi experiencia me dice que a veces combinas ambos. Lo que quiero decir es que permite que el trabajo pesado, es decir, computar cosas intensivas relacionadas con la formulación del modelo, se realice fuera de línea y luego emplear procedimientos rápidos / adaptativos para usar estos modelos. Hemos encontrado que los "nuevos datos" se pueden usar de tres maneras; 1. simplemente pronosticar; 2. revisar los parámetros del modelo conocido y 3. revisar los parámetros y posiblemente revisar el modelo. Estos tres enfoques se han utilizado para el "análisis en vivo" y, por supuesto, el tiempo para completar uno de estos tres pasos depende tanto del software utilizado como del hardware disponible.
Ahora a su otro punto con respecto a cómo modelar y vs x. Prefiero usar una versión expandida de regresión (llamada Transfer Functions o ARMAX Models) como base para extraer el impacto de la historia de y y los valores actuales y pas de x. Es crítico que uno valide los requisitos gaussianos e incorpore como representantes necesarios tanto para la estructura determinista omitida (a través de la Detección de valores atípicos) como para la estructura estocástica omitida a través del componente ARMA. Además, es necesario asegurarse de que no se hayan utilizado demasiados datos (pruebas de constancia de parámetros) y que cualquier varianza de error no constante resultante de una varianza y / o error de error determinista / estocástico entre el valor esperado de y y la varianza de derechos residuales de autor.
Ahora históricamente (o histéricamente si lo desea) diferentes silos de pensamiento han intentado formular enfoques. Se puede demostrar que muchos de los modelos ad-hoc utilizados por nuestros antepasados son subconjuntos de una Función de Transferencia, pero hay conjuntos de datos que se pueden imaginar que desafiarían los supuestos de una Función de Transferencia. Si bien estos conjuntos de datos pueden existir, no debe suponerse que lo afectarán directamente a menos que el análisis arroje esa conclusión.
Los textos como Wei (Addison-Wessley) o Box-Jenkins deberían proporcionar una hoja de ruta razonable para apoyar mis comentarios y guiarte a algunas "respuestas" más
Por cierto, esta es una gran pregunta!
Además, si tiene algún dato que desea utilizar, podría demostrarle las diversas opciones que se describen aquí. Publique sus datos en la web para que todos puedan verlos y utilizarlos en sus esfuerzos por relacionar "y con x".
fuente
Breiman aborda este tema en " Modelización estadística: dos culturas ". Una primera respuesta a una excelente pregunta.
fuente
Sospecho que la respuesta a esta pregunta es algo así como "no hay almuerzo gratis". Quizás la razón por la cual los estadísticos, los informáticos y los ingenieros eléctricos han desarrollado diferentes algoritmos es porque están interesados en resolver diferentes tipos de problemas.
fuente
Yo diría que estos tres grupos que indicó son de hecho solo dos grupos:
Todas las ramas relacionadas con el filtrado de señales se basan en dos aspectos: extracción de características (wavelets, Gabor y Fourier) que pertenece al reconocimiento de patrones y Transformación discreta de Fourier que pertenece a las matemáticas duras. De hecho, el filtrado digital está más cerca del lado de la ingeniería, ya que trata de resolver este problema de reconocimiento de patrones mediante algoritmos simples y de bajo costo computacional. Pero esencialmente, es aprendizaje automático.
Además, Filtering, Wavelets, Gabor y Fourier se utilizan ampliamente en el procesamiento de imágenes, siendo el núcleo de la visión artificial.
La diferencia existe entre estadística y aprendizaje automático.
fuente