Digamos que tenemos una muestra de dos poblaciones: A
y B
. Supongamos que estas poblaciones están formadas por individuos y elegimos describirlos en términos de características. Algunas de estas características son categóricas (por ejemplo, ¿conducen al trabajo?) Y otras son numéricas (por ejemplo, su altura). Llamemos a estas características: . Recopilamos cientos de estas características (p. Ej. N = 200), supongamos que son simples, sin errores ni ruidos en todos los individuos.
Presumimos que las dos poblaciones son diferentes. Nuestro objetivo es responder las siguientes dos preguntas:
- ¿Son realmente significativamente diferentes?
- ¿Qué es significativamente diferente entre ellos?
Los métodos como los árboles de decisión (por ejemplo, bosques aleatorios) y el análisis de regresión lineal pueden ayudar. Por ejemplo, se podría observar la importancia de las características en bosques aleatorios o los coeficientes ajustados en la regresión lineal para comprender qué puede distinguir a estos grupos y explorar las relaciones entre las características y las poblaciones.
Antes de seguir esta ruta, quiero tener una idea de mis opciones aquí, lo que es bueno y lo moderno versus las malas prácticas. Tenga en cuenta que mi objetivo no es la predicción per se, sino probar y encontrar diferencias significativas entre los grupos.
¿Cuáles son algunos enfoques de principios para abordar este problema?
Aquí hay algunas preocupaciones que tengo:
Los métodos como el análisis de regresión lineal pueden no responder completamente (2), ¿verdad? Por ejemplo, un solo ajuste puede ayudar a encontrar algunas diferencias, pero no todas las diferencias significativas. Por ejemplo, la multicolinealidad puede evitar que descubramos cómo todas las características varían entre los grupos (al menos en un solo ajuste). Por la misma razón, esperaría que ANOVA tampoco pueda proporcionar una respuesta completa a (2).
No está del todo claro cómo respondería un enfoque predictivo (1). Por ejemplo, ¿qué función de pérdida de clasificación / predicción debemos minimizar? ¿Y cómo probamos si los grupos son significativamente diferentes una vez que tenemos un ajuste? Finalmente, me preocupa que la respuesta a la que llegue (1) pueda depender del conjunto particular de modelos de clasificación que uso.
fuente
No dice cuántas funciones están disponibles en los datos. Pocos, muchos, masivos? ¿Podemos suponer que son las mismas características entre poblaciones, todas medidas con las mismas herramientas, métodos y modalidades? De lo contrario, tiene un problema mayor en el que podría funcionar un modelo de medición de errores en variables .
@benoitsanchez parece haber respondido la pregunta # 1).
Wrt # 2), no estoy seguro de que los RF puedan ayudar. Mediante el uso de un modelo más formal, como ANOVA unidireccional aplicado a una característica a la vez, se puede desarrollar una prueba de la diferencia entre poblaciones para las características. Al resumir los resultados de esas pruebas, con base en la magnitud de la prueba y su importancia, se hace posible un perfil descriptivo de cómo las poblaciones difieren entre las características. Esta es una solución ciertamente ad hoc y heurística que puede no ser lo suficientemente rigurosa para sus gustos, preferencias y capacitación.
No siendo bueno en la notación de tipo Latex, permítanme describir simplemente cómo podrían funcionar estas pruebas: primero, construya algún tipo de macro loop que pase todas las características, una característica a la vez. Con cada pasada del bucle, la nueva característica se convierte en el objetivo o DV con X que consiste en una variable ficticia para la población, así como cualquier variable de control que sea apropiada. Asegúrese de utilizar los mismos controles para cada característica y de que los datos subyacentes sean exactamente los mismos para todos los ANOVA, eliminando la variación atribuible a las vicisitudes de las muestras de datos finitos. Agregue los valores de la prueba F para la variable ficticia para cada característica. Esto proporcionará una métrica estandarizada que permite la comparación entre características. Las pruebas F son preferibles a las beta ajustadas ya que las betano están estandarizados, se expresan en la unidad y los estándares de desarrollo de cada característica individual.
Su último comentario, "Me preocupa que la respuesta a la que llegue (1) pueda depender del conjunto particular de modelos de clasificación / regresión que utilizo", siempre es cierto. Es muy probable que las respuestas varíen en función de los modelos utilizados. También es una expresión de un malestar comúnmente observado entre los estadísticos más fuertemente teóricos y clásicos que no se sienten cómodos o tienen problemas para reconocer la naturaleza no determinista del modelo estadístico aplicado. Un antídoto excelente para estos síntomas es el libro reciente de Efron y Hastie Computer Age Statistical Inference . Traen el modelado estadístico al siglo XXI, una era de ciencia de datos y aprendizaje automático, al reconocer con franqueza la naturaleza iterativa, aproximada y heurística de todosmodelos que poseen un término de error. No es necesario ser bayesiano para reconocer la verdad inherente a esta observación. La suya es una perspectiva refrescante que difiere del rígido determinismo de la práctica estadística clásica del siglo XX que arrojó sus manos cuando, por ejemplo, una matriz de productos cruzados no se invertía y / o no se cumplía alguna suposición de modelo pedante.
fuente