Distinguir entre dos grupos en estadística y aprendizaje automático: prueba de hipótesis versus clasificación versus agrupamiento

29

Suponga que tengo dos grupos de datos, etiquetados A y B (cada uno con, por ejemplo, 200 muestras y 1 función), y quiero saber si son diferentes. Yo podría:

  • a) realice una prueba estadística (p. ej., prueba t) para ver si son estadísticamente diferentes.

  • b) utilizar aprendizaje automático supervisado (por ejemplo, clasificador de vector de soporte o clasificador de bosque aleatorio). Puedo entrenar esto en una parte de mis datos y verificarlo en el resto. Si el algoritmo de aprendizaje automático clasifica el resto correctamente después, puedo estar seguro de que las muestras son diferenciables.

  • c) utilice un algoritmo no supervisado (por ejemplo, K-Means) y deje que divida todos los datos en dos muestras. Luego puedo verificar si estas dos muestras encontradas están de acuerdo con mis etiquetas, A y B.

Mis preguntas son:

  1. ¿Cómo se superponen / excluyen estas tres formas diferentes?
  2. ¿Son útiles b) yc) para cualquier argumento científico?
  3. ¿Cómo podría obtener una "importancia" para la diferencia entre las muestras A y B de los métodos b) yc)?
  4. ¿Qué cambiaría si los datos tuvieran múltiples características en lugar de 1 característica?
  5. ¿Qué sucede si contienen un número diferente de muestras, por ejemplo, 100 frente a 300?
MaxG
fuente
3
Yo diría que la diferencia entre (a) y (b) es que las pruebas estadísticas se centran en si no es una diferencia, mientras que los métodos de clasificación se centran en el tamaño de esta diferencia. Cuando utiliza un bosque aleatorio, desea conocer la precisión con validación cruzada; tal vez sea el 78%. Ese es el número que le interesa, y no hacer una declaración de que no es igual al 50% .
ameba dice Reinstate Monica
44
En mi humilde opinión, las situaciones en las que a / b / c tienen sentido difieren en la relación típica de señal a ruido, y está aumentando de (a) a (b) a (c). En la aplicación típica de una prueba t, hay mucho ruido; Queremos mostrar que los grupos no son iguales. Si los grupos obviamente no son iguales (menos ruido), realmente ya no necesitamos una prueba; en cambio, queremos cuantificar cuán diferentes son los grupos, y la precisión de la clasificación fuera de la muestra puede ayudar aquí. Si hay incluso menos ruido y la precisión de clasificación es ~ 100%, podemos preguntar si los grupos son tan distintos que pueden ser recogidos por un algoritmo de agrupamiento.
ameba dice Reinstate Monica
1
@amoeba, me dirijo a usted porque ha estado editando el título de la pregunta, etc. Le pediría que lo considere una vez más. "Clasificación" y "agrupamiento": no están en posesión (exclusiva) del aprendizaje automático. Estas tareas aparecieron y se realizaron de manera rutinaria en estadísticas / análisis de datos antes de la primera m. El alumno nació. Solo es cierto para algunas técnicas recientes como SVM que evolucionaron debido y dentro de ML. Es inapropiado asociar clasificación / agrupamiento / árboles con ML solamente. ML, sin embargo, difiere del análisis de datos estadísticos en el sentido de que utiliza el tren / prueba en gran medida.
ttnphns
@ttnphns Claro, todo está correcto, pero el título original era "Muestras distintivas: Aprendizaje automático versus pruebas estadísticas (por ejemplo, prueba t)" y solo quería agregarle algo de precisión porque la pregunta realmente es sobre la prueba t vs clasificación vs agrupamiento (para este propósito científico particular). Pensaré en posibles mejoras al título.
ameba dice Reinstate Monica
@ttnphns Edité el título, mira si te gusta más.
ameba dice Reinstate Monica

Respuestas:

15

Gran pregunta Cualquier cosa puede ser buena o mala, útil o no, en función de cuáles son sus objetivos (y quizás de la naturaleza de su situación). En su mayor parte, estos métodos están diseñados para satisfacer diferentes objetivos.

  • Las pruebas estadísticas , como la prueba permiten probar hipótesis científicas. A menudo se usan para otros fines (porque las personas simplemente no están familiarizadas con otras herramientas), pero en general no deberían estarlo. Si tiene una hipótesis a priori de que los dos grupos tienen medias diferentes en una variable normalmente distribuida, entonces la prueba t le permitirá probar esa hipótesis y controlar su tasa de error tipo I a largo plazo (aunque no sabrá si hiciste una tasa de error tipo I en este caso particular). tt
  • Los clasificadores en el aprendizaje automático, como un SVM, están diseñados para clasificar patrones como pertenecientes a uno de un conjunto conocido de clases. La situación típica es que tiene algunas instancias conocidas, y desea entrenar al clasificador para que pueda proporcionar las clasificaciones más precisas en el futuro cuando tenga otros patrones cuya clase verdadera es desconocida. El énfasis aquí está en la precisión de la muestra ; No estás probando ninguna hipótesis. Ciertamente, espera que la distribución de las variables / características predictoras difiera entre las clases, porque de lo contrario no será posible una ayuda de clasificación futura, pero no está tratando de evaluar su creencia de que las medias de Y difieren en X. Desea adivinar correctamente X en el futuro cuando se conoce Y.
  • Los algoritmos de aprendizaje no supervisados, como la agrupación , están diseñados para detectar o imponer estructura en un conjunto de datos. Hay muchas razones posibles por las que puede querer hacer esto. A veces puede esperar que haya agrupaciones latentes verdaderas en un conjunto de datos y desee ver si los resultados de la agrupación parecerán razonables y utilizables para sus propósitos. En otros casos, es posible que desee imponer una estructura en un conjunto de datos para permitir la reducción de datos. De cualquier manera, no está tratando de probar una hipótesis sobre nada, ni espera poder predecir con precisión nada en el futuro.

Con esto en mente, abordemos sus preguntas:

  1. Los tres métodos difieren fundamentalmente en los objetivos que sirven.
  2. byc podría ser útil en argumentos científicos, depende de la naturaleza de los argumentos en cuestión. Con mucho, el tipo más común de investigación en ciencia se centra en probar hipótesis. Sin embargo, la formación de modelos predictivos o la detección de patrones latentes también son posibles objetivos legítimos.
  3. Por lo general, no intentaría obtener 'importancia' de los métodos b o c.
  4. Suponiendo que las características son de naturaleza categórica (lo que considero es lo que tiene en mente), aún puede probar hipótesis utilizando un ANOVA factorial. En el aprendizaje automático hay un subtema para la clasificación de etiquetas múltiples . También hay métodos para múltiples miembros / grupos superpuestos, pero estos son menos comunes y constituyen un problema mucho menos manejable. Para obtener una descripción general del tema, consulte Krumpleman, CS (2010) Clustering superpuesto. Disertación, UT Austin, Ingeniería Eléctrica e Informática ( pdf ).
  5. En términos generales, los tres tipos de métodos tienen una mayor dificultad ya que el número de casos en las categorías diverge.
gung - Restablece a Monica
fuente
2
Re # 4: Creo que no entiendes la palabra "característica" en el OP. En el aprendizaje automático, "característica" simplemente significa una variable. Entonces, "características múltiples" significa que uno usaría una versión multivariada de una prueba t (como la T de Hotelling), y no un ANOVA factorial.
ameba dice Reinstate Monica
11

No va a abordar la agrupación porque se ha abordado en otras respuestas, pero:

En general, el problema de probar si dos muestras son significativamente diferentes se conoce como prueba de dos muestras .

tpags

Puede ser más fácil pensar en algunos de estos problemas si construye una prueba de dos muestras a partir de un clasificador, por ejemplo, como lo propusieron recientemente López-Paz y Oquab (2017) . El procedimiento es el siguiente:

  • XYXentrenarXpruebaYentrenarYprueba
  • XentrenarYentrenar
  • XpruebaYprueba
  • pags^pags=12pags12pags12

Al inspeccionar el clasificador aprendido, también puede interpretar las diferencias entre las distribuciones de una manera semi-significativa. Al cambiar la familia de clasificadores que considera, también puede ayudar a guiar la prueba para buscar ciertos tipos de diferencias.

Tenga en cuenta que es importante hacer la división de prueba de tren: de lo contrario, un clasificador que simplemente memoriza sus entradas siempre tendrá una discriminabilidad perfecta. Aumentar la porción de puntos en el conjunto de entrenamiento le brinda más datos para aprender un buen clasificador, pero menos oportunidades para asegurarse de que la precisión de la clasificación sea realmente diferente del azar. Esta compensación es algo que va a variar según el problema y la familia de clasificadores y aún no se comprende bien.

López-Paz y Oquab mostraron un buen desempeño empírico de este enfoque en algunos problemas. Ramdas y col. (2016) también mostraron que, en teoría, un enfoque estrechamente relacionado es óptimo para un problema simple específico. Lo "correcto" que se debe hacer en este entorno es un área de investigación activa, pero este enfoque es al menos razonable en muchos entornos si desea un poco más de flexibilidad e interpretabilidad que simplemente aplicar alguna prueba estándar estándar.

Dougal
fuente
(+1) Además, la validación cruzada anidada es el camino a seguir, en mi opinión. Luego, pruebe la estimación de rendimiento que obtiene en el ciclo de remuestreo externo contra el rendimiento de un modelo sin información. Si es significativamente mayor de lo esperado por azar, entonces sus datos están algo discriminados.
Firebug
@Firebug ¿Qué quiere decir con un "rendimiento del modelo sin información"? No entiendo bien su procedimiento propuesto.
Dougal
2
@Firebug Una advertencia importante pero sutil es que si la precisión de la clasificación se estima mediante CV, no se puede utilizar una prueba binomial.
ameba dice Reinstate Monica
2
@Firebug Mi punto sigue siendo: no puede aplicar ningún tipo de prueba de una muestra a AUC de diferentes pliegues y, en particular, de CV repetido porque estas estimaciones no son independientes. Este es un problema bien conocido.
ameba dice Reinstate Monica
2
Prueba de remutación: lo he hecho yo mismo. Ejecutas CV para obtener una estimación del rendimiento, luego barajas las etiquetas y vuelves a ejecutar toda la tubería CV (y barajas 100 o 1000 veces para obtener la distribución nula). Sin embargo, esto suele tomar mucho tiempo. CC a @Firebug.
ameba dice Reinstate Monica
3

Solo el enfoque (a) sirve para probar hipótesis.

En caso de utilizar algoritmos supervisados ​​de aprendizaje automático (b), no pueden probar ni refutar hipótesis sobre distingness de grupos. Si el algoritmo de aprendizaje automático no clasifica los grupos correctamente, puede suceder porque usó un algoritmo "incorrecto" para su problema, o no lo ajustó lo suficiente, etc. Por otro lado, puede "torturar" por mucho tiempo los datos totalmente "aleatorios" suficiente para producir un modelo de sobreajuste que haga buenas predicciones. Otro problema es cuándo y cómo sabría que el algoritmo hace "buenas" predicciones. Casi nunca apuntarías a una precisión de clasificación del 100%, entonces, ¿cuándo sabrías que los resultados de la clasificación prueban algo?

Los algoritmos de agrupamiento (c) no están diseñados para el aprendizaje supervisado. No pretenden recrear las etiquetas, sino agrupar sus datos en términos de similitudes. Ahora, los resultados dependen de qué algoritmo use y qué tipo de similitudes esté buscando. Sus datos pueden tener diferentes tipos de similitudes, es posible que desee buscar diferencias entre niños y niñas, pero el algoritmo puede encontrar grupos de niños pobres y ricos, o inteligentes y menos inteligentes, diestros y zurdos, etc. la agrupación que pretendía no prueba que la agrupación no tenga sentido, sino solo que encontró otra agrupación "significativa". Como en el caso anterior, los resultados pueden depender del algoritmo utilizado y los parámetros. ¿Le conviene que uno de cada diez algoritmos / configuraciones encuentre "su" ¿etiquetas? ¿Y si fuera uno de cada cien? ¿Cuánto tiempo buscarías antes de detenerte? Tenga en cuenta que cuando use el aprendizaje automático en la gran mayoría de los casos, no se detendrá después de usar un algoritmo con la configuración predeterminada y el resultado puede depender del procedimiento que utilizó.

Tim
fuente
2
Para el enfoque (b): puede construir una prueba de hipótesis como se señala en mi respuesta para resolver el problema de saber si su resultado es significativo (aunque esto seguramente es un uso ingenuo de clasificadores para este problema). Tenga en cuenta que cualquier prueba de hipótesis dada también puede fallar al rechazar el valor nulo porque es la prueba "incorrecta" para su problema, exactamente de la misma manera que sucedería con un clasificador; El problema del sobreajuste se aborda por completo mediante la división de datos.
Dougal
@Dougal buenos puntos (+1) pero mi argumento principal es que al usar el aprendizaje automático el resultado depende de cómo elijas el algoritmo, lo uses, lo pruebes y evalúes los resultados; entonces el resultado de tal prueba depende en gran medida de sus acciones. Esto significa que potencialmente dos estadísticos diferentes podrían obtener resultados diferentes al usar este método. Por otro lado, con las pruebas de hipótesis tradicionales depende solo de la elección de la prueba.
Tim
Además, no existe una única forma "correcta" de aplicarlo y puede manipularlo fácilmente (a propósito o no) para obtener los resultados esperados.
Tim
Si solo está intentando un millón de cosas hasta obtener el resultado deseado, sí. Si realiza una división de datos adecuada, incluso de su propio análisis, el procedimiento de prueba es perfectamente válido. Tener más opciones le permite un mayor poder en situaciones en las que sabe cómo explotarlo, pero sí permite más oportunidades para hacer trampa (inadvertidamente o de otro modo) si no tiene cuidado.
Dougal
@Dougal sí, pero el resultado depende también del procedimiento utilizado para la validación cruzada y la división en sí (por ejemplo, el tamaño del grupo de prueba). Entonces, en cada paso, el resultado depende de su procedimiento. Además, es su decisión cuando deja de aprender y trata de lograr mejores resultados (algoritmo único con configuraciones predeterminadas, algoritmos individuales y ajuste de parámetros, vs algoritmos múltiples, ¿cuántos?). Este procedimiento podría necesitar algunas correcciones para múltiples pruebas (pero ¿qué es exactamente?) Para tener en cuenta el procedimiento utilizado: parece que los buenos resultados en un solo algoritmo con la configuración predeterminada son
Tim
2
  1. a) solo responde la pregunta de si la distribución es diferente, pero no cómo distinguirlos b) también encontrará el mejor valor para diferenciar entre las dos distribuciones. c) funcionará si las dos distribuciones tienen algunas propiedades específicas. Por ejemplo, funcionará con distribución normal pero no con algunas dos distribuciones modales, porque el método puede diferenciar dos modos del mismo grupo en lugar de dos grupos diferentes.

  2. c) no es útil para argumentos científicos debido a dos distribuciones modales. b) podría usarse para diferenciar dos distribuciones, porque puede calcular el significado (ver 3.) Aunque nunca lo conocí.

  3. Por bootstrapping. Calcula el modelo en base a submuestras aleatorias 1000 veces. Obtiene una puntuación, por ejemplo, la suma mínima de errores alfa y beta. Ordena la puntuación ascendente. Para un 5% de confianza, elige el valor 950. Si este valor es inferior al 50% (para el mismo número de puntos para los grupos A y B), con una confianza del 95% puede ignorar la hipótesis nula de que las distribuciones son las mismas. El problema es que si las distribuciones son normales, tienen la misma media, pero tienen una variación diferente, entonces no podrá comprender que son diferentes por las técnicas de ML. Por otro lado, puede encontrar una prueba de variación que podrá distinguir las dos distribuciones. Y podría ser al revés que ML será más fuerte que una prueba estadística y podrá distinguir las distribuciones.

  4. Cuando solo tiene una característica en ML, necesita encontrar un solo valor para distinguir las distribuciones. Con dos características, el borde puede ser un seno y en un espacio multidimensional podría ser realmente extraño. Por lo tanto, será mucho más difícil encontrar el borde correcto. Por otro lado, las características adicionales aportan información adicional. Por lo tanto, generalmente permitirá distinguir las dos distribuciones más fácilmente. Si ambas variables se distribuyen normalmente, entonces el borde es una línea.

  5. Las muestras más pequeñas pueden comportarse de manera no normal porque no se puede aplicar el Teorema del límite central. Las muestras más grandes comienzan a comportarse más normalmente porque el Teorema del límite central comienza a funcionar. Por ejemplo, la media de ambos grupos se distribuirá casi normalmente si la muestra es lo suficientemente grande. Pero generalmente no es 100 vs 300 sino 10 observaciones contra 1000 observaciones. Entonces, de acuerdo con este sitio, la prueba t para la diferencia de medias funcionará independientemente de la distribución si el número de observaciones es mayor que 40 y sin valores atípicos.

keiv.fly
fuente
0

La prueba estadística es para hacer inferencia a partir de datos, le dice cómo se relacionan las cosas. El resultado es algo que tiene un significado en el mundo real. Por ejemplo, cómo fumar está asociado con el cáncer de pulmón, tanto en términos de dirección como de magnitud. Todavía no te dice por qué sucedieron las cosas. Para responder por qué sucedieron las cosas, debemos considerar también la interrelación con otras variables y hacer los ajustes apropiados (ver Pearl, J. (2003) CAUSALIDAD: MODELOS, RAZONAMIENTO E INFERENCIA).

El aprendizaje supervisado es para hacer predicciones, te dice lo que sucederá. Por ejemplo, dado el tabaquismo de una persona, podemos predecir si tendrá cáncer de pulmón. En casos simples, todavía le dice "cómo", por ejemplo, al observar el límite del estado de fumar identificado por el algoritmo. Pero los modelos más complejos son más difíciles o imposibles de interpretar (aprendizaje profundo / refuerzo con muchas características).

El aprendizaje no supervisado se usa a menudo para facilitar los dos anteriores.

  • Para las pruebas estadísticas, al descubrir algunos subgrupos subyacentes desconocidos de los datos (agrupación), podemos inferir la heterogeneidad en las asociaciones entre las variables. Por ejemplo, fumar aumenta las probabilidades de tener cáncer de pulmón para el subgrupo A pero no para el subgrupo B.
  • Para el aprendizaje supervisado, podemos crear nuevas funciones para mejorar la precisión y solidez de las predicciones. Por ejemplo, mediante la identificación de subgrupos (agrupamiento) o la combinación de características (reducción de dimensiones) que están asociadas con las probabilidades de tener cáncer de pulmón.

Cuando el número de características / variables aumenta, la diferencia entre las pruebas estadísticas y el aprendizaje supervisado se vuelve más sustancial. Las pruebas estadísticas pueden no necesariamente beneficiarse de esto, depende, por ejemplo, de si desea realizar una inferencia causal controlando otros factores o identificando la heterogeneidad en las asociaciones como se mencionó anteriormente. El aprendizaje supervisado funcionará mejor si las características son relevantes y se parecerá más a una caja negra.

Cuando el número de muestra aumenta, podemos obtener resultados más precisos para las pruebas estadísticas, resultados más precisos para el aprendizaje supervisado y resultados más sólidos para el aprendizaje no supervisado. Pero esto depende de la calidad de los datos. Los datos de mala calidad pueden introducir sesgo o ruido en los resultados.

A veces queremos saber "cómo" y "por qué" para informar las acciones de intervención, por ejemplo, al identificar que fumar causa cáncer de pulmón, se puede hacer una política para hacer frente a eso. A veces queremos saber "qué" informar a la toma de decisiones, por ejemplo, averiguar quién es probable que tenga cáncer de pulmón y darles tratamientos tempranos. Hay un número especial publicado en Science sobre la predicción y sus límites ( http://science.sciencemag.org/content/355/6324/468) "El éxito parece lograrse de manera más consistente cuando las preguntas se abordan en esfuerzos multidisciplinarios que unen la comprensión humana del contexto con la capacidad algorítmica para manejar terabytes de datos". En mi opinión, por ejemplo, el conocimiento descubierto usando pruebas de hipótesis puede ayudar a supervisar el aprendizaje al informarnos qué datos / características debemos recopilar en primer lugar. Por otro lado, el aprendizaje supervisado puede ayudar a generar hipótesis al informar qué variables

Tom KL
fuente