Suponga que tengo dos grupos de datos, etiquetados A y B (cada uno con, por ejemplo, 200 muestras y 1 función), y quiero saber si son diferentes. Yo podría:
a) realice una prueba estadística (p. ej., prueba t) para ver si son estadísticamente diferentes.
b) utilizar aprendizaje automático supervisado (por ejemplo, clasificador de vector de soporte o clasificador de bosque aleatorio). Puedo entrenar esto en una parte de mis datos y verificarlo en el resto. Si el algoritmo de aprendizaje automático clasifica el resto correctamente después, puedo estar seguro de que las muestras son diferenciables.
c) utilice un algoritmo no supervisado (por ejemplo, K-Means) y deje que divida todos los datos en dos muestras. Luego puedo verificar si estas dos muestras encontradas están de acuerdo con mis etiquetas, A y B.
Mis preguntas son:
- ¿Cómo se superponen / excluyen estas tres formas diferentes?
- ¿Son útiles b) yc) para cualquier argumento científico?
- ¿Cómo podría obtener una "importancia" para la diferencia entre las muestras A y B de los métodos b) yc)?
- ¿Qué cambiaría si los datos tuvieran múltiples características en lugar de 1 característica?
- ¿Qué sucede si contienen un número diferente de muestras, por ejemplo, 100 frente a 300?
Respuestas:
Gran pregunta Cualquier cosa puede ser buena o mala, útil o no, en función de cuáles son sus objetivos (y quizás de la naturaleza de su situación). En su mayor parte, estos métodos están diseñados para satisfacer diferentes objetivos.
Con esto en mente, abordemos sus preguntas:
fuente
No va a abordar la agrupación porque se ha abordado en otras respuestas, pero:
En general, el problema de probar si dos muestras son significativamente diferentes se conoce como prueba de dos muestras .
Puede ser más fácil pensar en algunos de estos problemas si construye una prueba de dos muestras a partir de un clasificador, por ejemplo, como lo propusieron recientemente López-Paz y Oquab (2017) . El procedimiento es el siguiente:
Al inspeccionar el clasificador aprendido, también puede interpretar las diferencias entre las distribuciones de una manera semi-significativa. Al cambiar la familia de clasificadores que considera, también puede ayudar a guiar la prueba para buscar ciertos tipos de diferencias.
Tenga en cuenta que es importante hacer la división de prueba de tren: de lo contrario, un clasificador que simplemente memoriza sus entradas siempre tendrá una discriminabilidad perfecta. Aumentar la porción de puntos en el conjunto de entrenamiento le brinda más datos para aprender un buen clasificador, pero menos oportunidades para asegurarse de que la precisión de la clasificación sea realmente diferente del azar. Esta compensación es algo que va a variar según el problema y la familia de clasificadores y aún no se comprende bien.
López-Paz y Oquab mostraron un buen desempeño empírico de este enfoque en algunos problemas. Ramdas y col. (2016) también mostraron que, en teoría, un enfoque estrechamente relacionado es óptimo para un problema simple específico. Lo "correcto" que se debe hacer en este entorno es un área de investigación activa, pero este enfoque es al menos razonable en muchos entornos si desea un poco más de flexibilidad e interpretabilidad que simplemente aplicar alguna prueba estándar estándar.
fuente
Solo el enfoque (a) sirve para probar hipótesis.
En caso de utilizar algoritmos supervisados de aprendizaje automático (b), no pueden probar ni refutar hipótesis sobre distingness de grupos. Si el algoritmo de aprendizaje automático no clasifica los grupos correctamente, puede suceder porque usó un algoritmo "incorrecto" para su problema, o no lo ajustó lo suficiente, etc. Por otro lado, puede "torturar" por mucho tiempo los datos totalmente "aleatorios" suficiente para producir un modelo de sobreajuste que haga buenas predicciones. Otro problema es cuándo y cómo sabría que el algoritmo hace "buenas" predicciones. Casi nunca apuntarías a una precisión de clasificación del 100%, entonces, ¿cuándo sabrías que los resultados de la clasificación prueban algo?
Los algoritmos de agrupamiento (c) no están diseñados para el aprendizaje supervisado. No pretenden recrear las etiquetas, sino agrupar sus datos en términos de similitudes. Ahora, los resultados dependen de qué algoritmo use y qué tipo de similitudes esté buscando. Sus datos pueden tener diferentes tipos de similitudes, es posible que desee buscar diferencias entre niños y niñas, pero el algoritmo puede encontrar grupos de niños pobres y ricos, o inteligentes y menos inteligentes, diestros y zurdos, etc. la agrupación que pretendía no prueba que la agrupación no tenga sentido, sino solo que encontró otra agrupación "significativa". Como en el caso anterior, los resultados pueden depender del algoritmo utilizado y los parámetros. ¿Le conviene que uno de cada diez algoritmos / configuraciones encuentre "su" ¿etiquetas? ¿Y si fuera uno de cada cien? ¿Cuánto tiempo buscarías antes de detenerte? Tenga en cuenta que cuando use el aprendizaje automático en la gran mayoría de los casos, no se detendrá después de usar un algoritmo con la configuración predeterminada y el resultado puede depender del procedimiento que utilizó.
fuente
a) solo responde la pregunta de si la distribución es diferente, pero no cómo distinguirlos b) también encontrará el mejor valor para diferenciar entre las dos distribuciones. c) funcionará si las dos distribuciones tienen algunas propiedades específicas. Por ejemplo, funcionará con distribución normal pero no con algunas dos distribuciones modales, porque el método puede diferenciar dos modos del mismo grupo en lugar de dos grupos diferentes.
c) no es útil para argumentos científicos debido a dos distribuciones modales. b) podría usarse para diferenciar dos distribuciones, porque puede calcular el significado (ver 3.) Aunque nunca lo conocí.
Por bootstrapping. Calcula el modelo en base a submuestras aleatorias 1000 veces. Obtiene una puntuación, por ejemplo, la suma mínima de errores alfa y beta. Ordena la puntuación ascendente. Para un 5% de confianza, elige el valor 950. Si este valor es inferior al 50% (para el mismo número de puntos para los grupos A y B), con una confianza del 95% puede ignorar la hipótesis nula de que las distribuciones son las mismas. El problema es que si las distribuciones son normales, tienen la misma media, pero tienen una variación diferente, entonces no podrá comprender que son diferentes por las técnicas de ML. Por otro lado, puede encontrar una prueba de variación que podrá distinguir las dos distribuciones. Y podría ser al revés que ML será más fuerte que una prueba estadística y podrá distinguir las distribuciones.
Cuando solo tiene una característica en ML, necesita encontrar un solo valor para distinguir las distribuciones. Con dos características, el borde puede ser un seno y en un espacio multidimensional podría ser realmente extraño. Por lo tanto, será mucho más difícil encontrar el borde correcto. Por otro lado, las características adicionales aportan información adicional. Por lo tanto, generalmente permitirá distinguir las dos distribuciones más fácilmente. Si ambas variables se distribuyen normalmente, entonces el borde es una línea.
Las muestras más pequeñas pueden comportarse de manera no normal porque no se puede aplicar el Teorema del límite central. Las muestras más grandes comienzan a comportarse más normalmente porque el Teorema del límite central comienza a funcionar. Por ejemplo, la media de ambos grupos se distribuirá casi normalmente si la muestra es lo suficientemente grande. Pero generalmente no es 100 vs 300 sino 10 observaciones contra 1000 observaciones. Entonces, de acuerdo con este sitio, la prueba t para la diferencia de medias funcionará independientemente de la distribución si el número de observaciones es mayor que 40 y sin valores atípicos.
fuente
La prueba estadística es para hacer inferencia a partir de datos, le dice cómo se relacionan las cosas. El resultado es algo que tiene un significado en el mundo real. Por ejemplo, cómo fumar está asociado con el cáncer de pulmón, tanto en términos de dirección como de magnitud. Todavía no te dice por qué sucedieron las cosas. Para responder por qué sucedieron las cosas, debemos considerar también la interrelación con otras variables y hacer los ajustes apropiados (ver Pearl, J. (2003) CAUSALIDAD: MODELOS, RAZONAMIENTO E INFERENCIA).
El aprendizaje supervisado es para hacer predicciones, te dice lo que sucederá. Por ejemplo, dado el tabaquismo de una persona, podemos predecir si tendrá cáncer de pulmón. En casos simples, todavía le dice "cómo", por ejemplo, al observar el límite del estado de fumar identificado por el algoritmo. Pero los modelos más complejos son más difíciles o imposibles de interpretar (aprendizaje profundo / refuerzo con muchas características).
El aprendizaje no supervisado se usa a menudo para facilitar los dos anteriores.
Cuando el número de características / variables aumenta, la diferencia entre las pruebas estadísticas y el aprendizaje supervisado se vuelve más sustancial. Las pruebas estadísticas pueden no necesariamente beneficiarse de esto, depende, por ejemplo, de si desea realizar una inferencia causal controlando otros factores o identificando la heterogeneidad en las asociaciones como se mencionó anteriormente. El aprendizaje supervisado funcionará mejor si las características son relevantes y se parecerá más a una caja negra.
Cuando el número de muestra aumenta, podemos obtener resultados más precisos para las pruebas estadísticas, resultados más precisos para el aprendizaje supervisado y resultados más sólidos para el aprendizaje no supervisado. Pero esto depende de la calidad de los datos. Los datos de mala calidad pueden introducir sesgo o ruido en los resultados.
A veces queremos saber "cómo" y "por qué" para informar las acciones de intervención, por ejemplo, al identificar que fumar causa cáncer de pulmón, se puede hacer una política para hacer frente a eso. A veces queremos saber "qué" informar a la toma de decisiones, por ejemplo, averiguar quién es probable que tenga cáncer de pulmón y darles tratamientos tempranos. Hay un número especial publicado en Science sobre la predicción y sus límites ( http://science.sciencemag.org/content/355/6324/468) "El éxito parece lograrse de manera más consistente cuando las preguntas se abordan en esfuerzos multidisciplinarios que unen la comprensión humana del contexto con la capacidad algorítmica para manejar terabytes de datos". En mi opinión, por ejemplo, el conocimiento descubierto usando pruebas de hipótesis puede ayudar a supervisar el aprendizaje al informarnos qué datos / características debemos recopilar en primer lugar. Por otro lado, el aprendizaje supervisado puede ayudar a generar hipótesis al informar qué variables
fuente