Hemos realizado una prueba dividida de una nueva característica del producto y queremos medir si la mejora en los ingresos es significativa. Nuestras observaciones definitivamente no se distribuyen normalmente (la mayoría de nuestros usuarios no gastan, y dentro de las que sí lo hacen, está muy sesgada hacia muchos pequeños gastadores y unos pocos muy grandes).
Decidimos usar bootstrapping para comparar los medios, para evitar el problema de que los datos no se distribuyan normalmente (pregunta secundaria: ¿es este un uso legítimo de bootstrapping?)
Mi pregunta es, ¿necesito recortar los valores atípicos del conjunto de datos (por ejemplo, los pocos que gastan mucho) antes de ejecutar el arranque, o eso no importa?
Respuestas:
Antes de abordar esto, es importante reconocer que la mala práctica estadística de "eliminar los valores atípicos" se ha promulgado erróneamente en gran parte de la pedagogía estadística aplicada. Tradicionalmente, los valores atípicos se definen como observaciones de alta influencia y alta influencia. Uno puede y debe identificar tales observaciones en el análisis de datos, pero esas condiciones por sí solas no garantizan la eliminación de esas observaciones. Un "valor atípico verdadero" es una observación de alto apalancamiento / alta influencia que es inconsistente con las réplicas del diseño experimental. Para considerar una observación como tal se requiere un conocimiento especializado de esa población y la ciencia detrás del "mecanismo de generación de datos". El aspecto más importante es que debe ser capaz de identificar posibles valores atípicos a priori .
En cuanto al aspecto de bootstrapping de las cosas, el bootstrap está destinado a simular sorteos independientes y repetidos de la población de muestreo. Si especifica criterios de exclusión en su plan de análisis, aún debe dejar los valores excluidos en la distribución de muestreo de arranque de referencia . Esto se debe a que tendrá en cuenta la pérdida de energía debido a la aplicación de exclusiones después de muestrear sus datos. Sin embargo, si no hay criterios de exclusión preespecificados y los valores atípicos se eliminan mediante una adjudicación post hoc , como obviamente estoy defendiendo, la eliminación de estos valores propagará los mismos errores de inferencia causados por la eliminación de valores atípicos.
Considere un estudio sobre riqueza y felicidad en una muestra aleatoria simple no estratificada de 100 personas. Si tomáramos la declaración, "1% de la población posee el 90% de la riqueza mundial" literalmente, entonces observaríamos, en promedio, un valor muy altamente influyente. Supongamos además que, más allá de proporcionar una calidad de vida básica, no hubo exceso de felicidad atribuible a mayores ingresos (tendencia lineal no constante). Entonces, este individuo también tiene un alto apalancamiento.
El ajuste del coeficiente de regresión de mínimos cuadrados en datos no adulterados estima una tendencia promedio de primer orden de la población en estos datos. Está muy atenuado por nuestro 1 individuo en la muestra cuya felicidad es consistente con los niveles de ingresos medios cercanos. Si eliminamos este individuo, la pendiente de regresión de mínimos cuadrados es mucho mayor, pero la varianza del regresor se reduce, por lo tanto, la inferencia sobre la asociación es aproximadamente la misma. La dificultad para hacer esto es que no especifiqué previamente las condiciones en las que los individuos serían excluidos. Si otro investigador replicara este diseño de estudio, tomarían muestras de un promedio de un individuo de ingresos altos, moderadamente feliz, y obtendrían resultados que fueran inconsistentes con mis resultados "recortados".
Si estuviéramos interesados a priori en la asociación de felicidad de ingresos moderados, entonces deberíamos haber especificado previamente que lo haríamos, por ejemplo, "comparar individuos que ganan menos de $ 100,000 de ingresos familiares anuales". Entonces, eliminar el valor atípico nos hace estimar una asociación que no podemos describir, por lo tanto, los valores p no tienen sentido.
Por otro lado, se pueden eliminar los equipos médicos mal calibrados y las mentiras graciosas de encuestas autoinformadas. Cuanto más exactamente se puedan describir los criterios de exclusión antes de que se realice el análisis real, más válidos y consistentes serán los resultados que tal análisis producirá.
fuente
Mirar esto como un problema atípico me parece incorrecto. Si "<10% de los usuarios gastan", debe modelar ese aspecto. La regresión de Tobit o Heckman serían dos posibilidades.
fuente