Investigar las diferencias entre las poblaciones.

9

Digamos que tenemos una muestra de dos poblaciones: Ay B. Supongamos que estas poblaciones están formadas por individuos y elegimos describirlos en términos de características. Algunas de estas características son categóricas (por ejemplo, ¿conducen al trabajo?) Y otras son numéricas (por ejemplo, su altura). Llamemos a estas características: . Recopilamos cientos de estas características (p. Ej. N = 200), supongamos que son simples, sin errores ni ruidos en todos los individuos.X1Xn

Presumimos que las dos poblaciones son diferentes. Nuestro objetivo es responder las siguientes dos preguntas:

  1. ¿Son realmente significativamente diferentes?
  2. ¿Qué es significativamente diferente entre ellos?

Los métodos como los árboles de decisión (por ejemplo, bosques aleatorios) y el análisis de regresión lineal pueden ayudar. Por ejemplo, se podría observar la importancia de las características en bosques aleatorios o los coeficientes ajustados en la regresión lineal para comprender qué puede distinguir a estos grupos y explorar las relaciones entre las características y las poblaciones.

Antes de seguir esta ruta, quiero tener una idea de mis opciones aquí, lo que es bueno y lo moderno versus las malas prácticas. Tenga en cuenta que mi objetivo no es la predicción per se, sino probar y encontrar diferencias significativas entre los grupos.

¿Cuáles son algunos enfoques de principios para abordar este problema?

Aquí hay algunas preocupaciones que tengo:

  • Los métodos como el análisis de regresión lineal pueden no responder completamente (2), ¿verdad? Por ejemplo, un solo ajuste puede ayudar a encontrar algunas diferencias, pero no todas las diferencias significativas. Por ejemplo, la multicolinealidad puede evitar que descubramos cómo todas las características varían entre los grupos (al menos en un solo ajuste). Por la misma razón, esperaría que ANOVA tampoco pueda proporcionar una respuesta completa a (2).

  • No está del todo claro cómo respondería un enfoque predictivo (1). Por ejemplo, ¿qué función de pérdida de clasificación / predicción debemos minimizar? ¿Y cómo probamos si los grupos son significativamente diferentes una vez que tenemos un ajuste? Finalmente, me preocupa que la respuesta a la que llegue (1) pueda depender del conjunto particular de modelos de clasificación que uso.

Amelio Vazquez-Reina
fuente

Respuestas:

5

Pensemos el problema de la siguiente manera.

Digamos e es una variable binaria que representa la población: significa primera población, significa segunda población. La hipótesis nula se puede expresar de varias maneras equivalentes:Y Y = 0 Y = 1X=(X1,X2,..Xn)YY=0Y=1

  • H0 : las poblaciones son iguales
  • X Y = 0 X Y = 1H0 : la distribución de dado es la misma que la distribución de dadoXY=0XY=1
  • X YH0 : e son independientesXY
  • f { 0 , 1 } f ( X ) YH0 : para cualquier función en , e son independientesf{0,1}f(X)Y

No sé mucho acerca de los bosques aleatorios, pero pueden considerarse como un predictor de uso múltiple que evita el sobreajuste. Si los idealizamos bastante: es algo capaz de detectar cualquier tipo de relación entre y cualquier tipo de características sin un ajuste excesivo.XYX

Es posible probar algo basado en esto. Divida el conjunto de datos original en un conjunto de entrenamiento y un conjunto de prueba. Entonces:

  • entrenar un bosque aleatorio que predice partir de en el conjunto de entrenamiento.Y XfYX
  • hacer una prueba de independencia chi-cuadrado simple (con riesgo ) entre e en el conjunto de pruebaf ( X ) Yαf(X)Y

Esta prueba es bastante conservadora. Si el bosque aleatorio es un método deficiente, en el peor de los casos produce una tonta , rechazará con una probabilidad menor que todos modos (cuando es verdadero). El ajuste excesivo ni siquiera sería un problema, ya que utilizamos una prueba y un conjunto de entrenamiento. Sin embargo, el poder de la prueba depende directamente de la inteligencia del método de bosque aleatorio (o de cualquier predictor utilizado).H 0 α H 0f(X)H0αH0

Tenga en cuenta que puede usar varios predictores posibles: como la regresión logística simple y antigua primero, luego la regresión logística con algunas características cruzadas, luego algunos árboles de decisión, luego un bosque aleatorio ... Pero si lo hace, debe ajustar al número de pruebas para evitar "falsos descubrimientos". Ver: ajuste alfa para pruebas múltiplesα

Benoit Sanchez
fuente
Gracias Benoit (+1). Esto parece aplicable a la pregunta (1). ¿Alguna idea sobre cómo abordar (2) con este o un enfoque alternativo?
Amelio Vazquez-Reina
Como lo señaló DJohnson, RF no es interpretable. La regresión logística puede ser (con características únicas al menos). Realmente depende del predictor. Siguiendo una idea cercana a RF, es posible utilizar muchos árboles de decisión (aleatorios) (con bien ajustados ) y mostrar el árbol con el valor p más pequeño (= mejor). α
Benoit Sanchez
Gracias. Me gusta la sugerencia de ajustar DT aleatorios y encontrar aquellos con el resultado más significativo en una prueba de chi-cuadrado. Supongo que se refiere a las correcciones de Bonferroni cuando mencionó el uso de un bien ajustado . ¿Cómo sería diferente de usar RF y probar cada árbol? α
Amelio Vazquez-Reina
Además, mi esperanza con los RF es identificar características que capturen las diferencias (es decir, obtener al menos una respuesta parcial a (2)). No son ideales para la interpretación (aunque supongo que uno podría hacerlo limitando su altura). En cualquier caso, lo mismo se puede decir sobre los DT ¿verdad? Solo asegurándome de que entiendo bien tu comentario.
Amelio Vazquez-Reina
Sí, me refiero a Bonferroni. Con RF, crea un único predictor promediando muchos DT. Luego, realiza una única prueba con este promedio, no con cada uno de los DT, lo que resulta en un riesgo . Con varios DT, realiza pruebas que resultan en riesgo (a menos que use Bonferroni). Esto debe pensarse como una prueba múltiple, mientras que (un solo) RF promediando muchos DT es una prueba única. n 1 - ( 1 - α ) nαn1(1α)n
Benoit Sanchez
3

No dice cuántas funciones están disponibles en los datos. Pocos, muchos, masivos? ¿Podemos suponer que son las mismas características entre poblaciones, todas medidas con las mismas herramientas, métodos y modalidades? De lo contrario, tiene un problema mayor en el que podría funcionar un modelo de medición de errores en variables .

@benoitsanchez parece haber respondido la pregunta # 1).

Wrt # 2), no estoy seguro de que los RF puedan ayudar. Mediante el uso de un modelo más formal, como ANOVA unidireccional aplicado a una característica a la vez, se puede desarrollar una prueba de la diferencia entre poblaciones para las características. Al resumir los resultados de esas pruebas, con base en la magnitud de la prueba y su importancia, se hace posible un perfil descriptivo de cómo las poblaciones difieren entre las características. Esta es una solución ciertamente ad hoc y heurística que puede no ser lo suficientemente rigurosa para sus gustos, preferencias y capacitación.

No siendo bueno en la notación de tipo Latex, permítanme describir simplemente cómo podrían funcionar estas pruebas: primero, construya algún tipo de macro loop que pase todas las características, una característica a la vez. Con cada pasada del bucle, la nueva característica se convierte en el objetivo o DV con X que consiste en una variable ficticia para la población, así como cualquier variable de control que sea apropiada. Asegúrese de utilizar los mismos controles para cada característica y de que los datos subyacentes sean exactamente los mismos para todos los ANOVA, eliminando la variación atribuible a las vicisitudes de las muestras de datos finitos. Agregue los valores de la prueba F para la variable ficticia para cada característica. Esto proporcionará una métrica estandarizada que permite la comparación entre características. Las pruebas F son preferibles a las beta ajustadas ya que las betano están estandarizados, se expresan en la unidad y los estándares de desarrollo de cada característica individual.

Su último comentario, "Me preocupa que la respuesta a la que llegue (1) pueda depender del conjunto particular de modelos de clasificación / regresión que utilizo", siempre es cierto. Es muy probable que las respuestas varíen en función de los modelos utilizados. También es una expresión de un malestar comúnmente observado entre los estadísticos más fuertemente teóricos y clásicos que no se sienten cómodos o tienen problemas para reconocer la naturaleza no determinista del modelo estadístico aplicado. Un antídoto excelente para estos síntomas es el libro reciente de Efron y Hastie Computer Age Statistical Inference . Traen el modelado estadístico al siglo XXI, una era de ciencia de datos y aprendizaje automático, al reconocer con franqueza la naturaleza iterativa, aproximada y heurística de todosmodelos que poseen un término de error. No es necesario ser bayesiano para reconocer la verdad inherente a esta observación. La suya es una perspectiva refrescante que difiere del rígido determinismo de la práctica estadística clásica del siglo XX que arrojó sus manos cuando, por ejemplo, una matriz de productos cruzados no se invertía y / o no se cumplía alguna suposición de modelo pedante.

Mike Hunter
fuente
Gracias @DJohnson. Cuando dijo "Agregar los valores de la prueba F para la variable ficticia para cada característica", ¿qué quiere decir exactamente? es decir, ¿qué harías exactamente con este resultado? Además, ¿qué quieres decir con betas en este contexto? Finalmente, ¿este enfoque iterativo no se limitaría a ninguna interacción? Por ejemplo, utilizando el ejemplo original, ¿qué pasa si hay una diferencia significativa en la "altura de las personas que conducen al trabajo"?
Amelio Vazquez-Reina
Además, ¿por qué procedería con una secuencia de pruebas ANOVA de 1 vía en lugar de hacer ANOVA multidireccional?
Amelio Vazquez-Reina
2
Buena pregunta. En términos del perfil descriptivo resultante, estaba pensando simplemente en registrar la prueba F y la significación o valores p asociados para cada característica y luego clasificarlos de mayor a menor. Dado que la prueba F es una relación de chi-cuadrados y, por lo tanto, no es simétrica, las medias de población podrían agregarse al informe para ayudar a comprender la direccionalidad de los resultados. Alternativamente, una prueba t podría ayudar en esta comprensión. Este perfil ayudaría a comprender tanto la magnitud como la fuerza de las características en función de las poblaciones subyacentes.
Mike Hunter
Como se señaló, las variables de control deben agregarse según corresponda. Estos podrían incluir interacciones, siempre que se usen de manera consistente en todos los modelos. La introducción de factores adicionales, por definición, ampliaría el modelo de regresión unidireccional a múltiple o ANOVA.
Mike Hunter