¿Tiene una visión global sobre esas técnicas de análisis?

24

Actualmente estoy en un proyecto donde básicamente necesito, como todos lo hacemos, comprender cómo se relaciona la salida con la entrada . La particularidad aquí es que los datos son proporcionados de una en una, por lo que quiero actualizar mi análisis cada vez que recibo un nuevo . Creo que esto se llama procesamiento "en línea", en oposición al procesamiento "por lotes", donde tiene todos los datos necesarios y realiza sus cálculos utilizando todos los datos al mismo tiempo.y( y , x ) ( y , x )X(y,X)(y,X)

Así que busqué ideas y finalmente llegué a la conclusión de que el mundo está dividido en tres:

  • La primera parte es la tierra de las estadísticas y la econometría. La gente allí hace OLS, GLS, variables de instrumentos, ARIMA, pruebas, diferencia de diferencias, PCA y otras cosas. Esta tierra está dominada principalmente por la linealidad y solo realiza el procesamiento "por lotes".

  • La segunda parte es la isla del aprendizaje automático y otras palabras como inteligencia artificial, aprendizaje supervisado y no supervisado, redes neuronales y SVM. Tanto el procesamiento "por lotes" como el "en línea" se realizan aquí.

  • La tercera parte es un continente entero que acabo de descubrir, en su mayoría poblado por ingenieros eléctricos, por lo que parece. Allí, las personas a menudo agregan la palabra "filtro" a sus herramientas, e inventaron grandes cosas como el algoritmo de Widrow-Hoff, los mínimos cuadrados recursivos , el filtro de Wiener , el filtro de Kalman y probablemente otras cosas que aún no he descubierto. Aparentemente, realizan principalmente el procesamiento "en línea", ya que se adapta mejor a sus necesidades.

Entonces mi pregunta es, ¿tiene una visión global de todo esto? Tengo la impresión de que estas tres partes del mundo no hablan demasiado entre sí. ¿Me equivoco? ¿Existe una gran teoría unificada de comprensión de cómo relaciona con ? ¿Conoces algún recurso donde se puedan establecer las bases de esa teoría?XYX

No estoy seguro de si esta pregunta realmente tiene sentido, pero estoy un poco perdido entre todas esas teorías. Me imagino la respuesta a la pregunta "¿debería usar esto o aquello?" sería "depende de lo que quieras hacer (y de tus datos)". Sin embargo, siento que esos tres mundos intentan responder a la misma pregunta ( ?) Y, por lo tanto, debería ser posible tener una visión más alta de todo esto y comprender profundamente lo que hace que cada técnica sea particular.y=F(X)

Arthur
fuente
Creo que las 2 primeras áreas se hablan mucho más en estos días. Gran pregunta sin embargo!
Zach
¡Tema de la dinamita y pregunta bien escrita!
rolando2
1
Por favor haga este CW.
cardenal
1
Me llamaría a mí mismo estadístico, pero hago muchas cosas en línea, hago algunos modelos no lineales de varios tipos y he incursionado en al menos un poco de IA. Creo que las diferencias en las herramientas típicas tienen más que ver con los tipos de problemas que las personas tienden a encontrar. Cuando sus problemas convergen, tarde o temprano tienden a encontrar o reinventar las mismas herramientas (a menudo bajo diferentes nombres y con campanas y silbatos ligeramente diferentes).
Glen_b -Reinstate Monica

Respuestas:

4

En términos de lote versus en línea, mi experiencia me dice que a veces combinas ambos. Lo que quiero decir es que permite que el trabajo pesado, es decir, computar cosas intensivas relacionadas con la formulación del modelo, se realice fuera de línea y luego emplear procedimientos rápidos / adaptativos para usar estos modelos. Hemos encontrado que los "nuevos datos" se pueden usar de tres maneras; 1. simplemente pronosticar; 2. revisar los parámetros del modelo conocido y 3. revisar los parámetros y posiblemente revisar el modelo. Estos tres enfoques se han utilizado para el "análisis en vivo" y, por supuesto, el tiempo para completar uno de estos tres pasos depende tanto del software utilizado como del hardware disponible.

Ahora a su otro punto con respecto a cómo modelar y vs x. Prefiero usar una versión expandida de regresión (llamada Transfer Functions o ARMAX Models) como base para extraer el impacto de la historia de y y los valores actuales y pas de x. Es crítico que uno valide los requisitos gaussianos e incorpore como representantes necesarios tanto para la estructura determinista omitida (a través de la Detección de valores atípicos) como para la estructura estocástica omitida a través del componente ARMA. Además, es necesario asegurarse de que no se hayan utilizado demasiados datos (pruebas de constancia de parámetros) y que cualquier varianza de error no constante resultante de una varianza y / o error de error determinista / estocástico entre el valor esperado de y y la varianza de derechos residuales de autor.

Ahora históricamente (o histéricamente si lo desea) diferentes silos de pensamiento han intentado formular enfoques. Se puede demostrar que muchos de los modelos ad-hoc utilizados por nuestros antepasados ​​son subconjuntos de una Función de Transferencia, pero hay conjuntos de datos que se pueden imaginar que desafiarían los supuestos de una Función de Transferencia. Si bien estos conjuntos de datos pueden existir, no debe suponerse que lo afectarán directamente a menos que el análisis arroje esa conclusión.

Los textos como Wei (Addison-Wessley) o Box-Jenkins deberían proporcionar una hoja de ruta razonable para apoyar mis comentarios y guiarte a algunas "respuestas" más

Por cierto, esta es una gran pregunta!

Además, si tiene algún dato que desea utilizar, podría demostrarle las diversas opciones que se describen aquí. Publique sus datos en la web para que todos puedan verlos y utilizarlos en sus esfuerzos por relacionar "y con x".

IrishStat
fuente
¡Gracias por tu respuesta! Lo investigaré más a fondo tan pronto como tenga tiempo y probablemente me pondré en contacto contigo. Debo decir que no conocía el modelo ARMAX. Supongo que habría estado directamente en un VAR completamente endógeno. En cuanto a los datos, en realidad todavía estamos construyendo otras cosas para nuestro proyecto, por lo que no tengo muchos datos relevantes en este momento. Pero muchas gracias, ¡deberías saber de mí otra vez!
Arthur
"validar los requisitos gaussianos": ¿no es una división profunda gaussiana / no paramétrica / olvidar-modelar (pace Breiman)?
denis
2

Breiman aborda este tema en " Modelización estadística: dos culturas ". Una primera respuesta a una excelente pregunta.

Quant Guy
fuente
¡Gracias! Su enlace no funcionó para mí, ese funciona y este conduce directamente al pdf. Solo he leído el resumen y alguna parte al azar en el texto y parece muy interesante. Sin embargo, los chicos parecen ser totalmente "estadísticas anti clásicas". Gracias de nuevo.
Arthur
Genial: actualicé el enlace. Es una lectura divertida, ¡disfrútala!
Ram Ahluwalia
Las "Dos culturas" de Breiman se han discutido aquí : algunos puntos interesantes, pero es difícil cambiar o incluso explicar la mentalidad de uno.
denis
1

Sospecho que la respuesta a esta pregunta es algo así como "no hay almuerzo gratis". Quizás la razón por la cual los estadísticos, los informáticos y los ingenieros eléctricos han desarrollado diferentes algoritmos es porque están interesados ​​en resolver diferentes tipos de problemas.

Zach
fuente
0

Yo diría que estos tres grupos que indicó son de hecho solo dos grupos:

  • Estadística
  • Aprendizaje automático, inteligencia artificial y reconocimiento de patrones.

Todas las ramas relacionadas con el filtrado de señales se basan en dos aspectos: extracción de características (wavelets, Gabor y Fourier) que pertenece al reconocimiento de patrones y Transformación discreta de Fourier que pertenece a las matemáticas duras. De hecho, el filtrado digital está más cerca del lado de la ingeniería, ya que trata de resolver este problema de reconocimiento de patrones mediante algoritmos simples y de bajo costo computacional. Pero esencialmente, es aprendizaje automático.

Además, Filtering, Wavelets, Gabor y Fourier se utilizan ampliamente en el procesamiento de imágenes, siendo el núcleo de la visión artificial.

La diferencia existe entre estadística y aprendizaje automático.

a.desantos
fuente