Para el modelado predictivo, ¿debemos preocuparnos por conceptos estadísticos como los efectos aleatorios y la no independencia de las observaciones (medidas repetidas)? Por ejemplo....
Tengo datos de 5 campañas de correo directo (ocurridas en el transcurso de un año) con varios atributos y una bandera de compra. Idealmente, usaría todos estos datos combinados para construir un modelo para la compra dados los atributos del cliente al momento de la campaña. La razón es que el evento de compra es raro y me gustaría utilizar la mayor cantidad de información posible. Existe la posibilidad de que un cliente determinado pueda estar entre 1 y 5 de las campañas, lo que significa que no hay independencia entre los registros.
¿Importa esto al usar:
1) Un enfoque de aprendizaje automático (por ejemplo, árbol, MLP, SVM)
2) ¿Un enfoque estadístico (regresión logística)?
**ADD:**
Mi pensamiento sobre el modelado predictivo es si el modelo funciona, úselo. De modo que nunca he considerado realmente la importancia de los supuestos. Pensar en el caso que describo arriba me hizo preguntarme.
Tome algoritmos de aprendizaje automático como a MLP and SVM
. Estos se utilizan con éxito para modelar un evento binario, como mi ejemplo anterior, pero también datos de series temporales que están claramente correlacionados. Sin embargo, muchos usan funciones de pérdida que son probabilidades y derivadas suponiendo que los errores son iid. Por ejemplo, los árboles impulsados por gradiente en R gbm
utilizan funciones de pérdida de desviación que se derivan del binomio ( Página 10 ).
Respuestas:
Me he estado preguntando esto yo mismo , y aquí están mis conclusiones tentativas. Sería feliz si alguien pudiera complementar / corregir esto con su conocimiento y cualquier referencia sobre este tema.
Si desea probar hipótesis sobre los coeficientes de regresión logística al verificar la significancia estadística, debe modelar la correlación a través de las observaciones (o corregir de otro modo la no independencia) porque de lo contrario sus errores estándar serán demasiado pequeños, al menos cuando esté considerando efectos de racimo. Pero los coeficientes de regresión son insesgados incluso con observaciones correlacionadas, por lo que debería estar bien usar dicho modelo para la predicción.
En el modelado predictivo, no debería tener que explicar explícitamente la correlación al entrenar su modelo, ya sea que esté utilizando la regresión logística o algún otro enfoque. Sin embargo, si desea utilizar un conjunto de reserva para la validación o el cálculo del error fuera de la muestra, debe asegurarse de que las observaciones para cada individuo aparecieron solo en un conjunto, ya sea entrenamiento o validación, pero no ambos. De lo contrario, su modelo estará prediciendo para las personas sobre las que ya tiene información y no está obteniendo una verdadera lectura sobre la capacidad de clasificación fuera de la muestra.
fuente