Dado que sus dos métricas son 1) binaria y 2) de cola pesada, debe evitar la prueba t, que supone distribuciones normales.
Creo que Mann-Whitney U es su mejor opción y debería ser lo suficientemente eficiente incluso si sus distribuciones fueran casi normales.
Con respecto a su segunda pregunta:
¿Qué sucede si una prueba sugiere una diferencia significativa entre las cohortes y alguna otra prueba sugiere una diferencia no significativa?
Esto no es raro si la diferencia estadística es límite y los datos tienen distribuciones de muestra "desordenadas". Esta situación requiere que el analista considere cuidadosamente todos los supuestos y limitaciones de cada prueba estadística, y otorgue el mayor peso a la prueba estadística que tiene el menor número de violaciones de supuestos.
Suponga que la distribución normal. Hay varias pruebas de normalidad, pero ese no es el final de la historia. Algunas pruebas funcionan bastante bien en distribuciones simétricas, incluso si hay alguna desviación de la normalidad, pero no funcionan bien en distribuciones asimétricas.
Como regla general, le sugiero que no ejecute ninguna prueba donde cualquiera de sus supuestos se viola claramente.
EDITAR: para la segunda variable, podría ser factible transformar la variable en una que normalmente se distribuye (o al menos cierra) siempre que la transformación conserve el orden. Debe tener buena confianza en que la transformación produce una distribución normal para ambas cohortes. Si ajusta la segunda variable a la distribución log-normal, entonces una función log la transforma en una distribución normal. Pero si la distribución es Pareto (ley de poder), entonces no hay transformación a una distribución normal.
EDITAR: Como se sugiere en este comentario , definitivamente debe considerar la Estimación Bayesiana como una alternativa a la prueba t y otras Pruebas de significación de hipótesis nulas (NHST).
Para los datos de valor real, también puede considerar generar su propia estadística de prueba basada en un arranque de sus datos. Este enfoque tiende a producir resultados precisos cuando se trata de distribuciones de población no normales o cuando se trata de desarrollar un intervalo de confianza alrededor de un parámetro que no tiene una solución analítica conveniente. (Lo primero es cierto en su caso. Solo menciono lo segundo por contexto).
Para sus datos de valor real, haría lo siguiente:
Una vez que tenga esa distribución, calcule la diferencia de medias para sus muestras reales y calcule un valor p.
fuente
Apoyo la respuesta de @ MrMeritology. En realidad, me preguntaba si la prueba MWU sería menos poderosa que la prueba de proporciones independientes, ya que los libros de texto que aprendí y solía enseñar decían que la MWU solo se puede aplicar a datos ordinales (o intervalo / relación).
Pero mis resultados de simulación, graficados a continuación, indican que la prueba de MWU es en realidad un poco más poderosa que la prueba de proporción, mientras que controla bien el error tipo I (en la proporción de población del grupo 1 = 0,50).
La proporción de la población del grupo 2 se mantiene en 0,50. El número de iteraciones es de 10,000 en cada punto. Repetí la simulación sin la corrección de Yate pero los resultados fueron los mismos.
fuente