Bootstrapping: ¿debo eliminar los valores atípicos primero?

Hemos realizado una prueba dividida de una nueva característica del producto y queremos medir si la mejora en los ingresos es significativa. Nuestras observaciones definitivamente no se distribuyen normalmente (la mayoría de nuestros usuarios no gastan, y dentro de las que sí lo hacen, está muy sesgada hacia muchos pequeños gastadores y unos pocos muy grandes).

Decidimos usar bootstrapping para comparar los medios, para evitar el problema de que los datos no se distribuyan normalmente (pregunta secundaria: ¿es este un uso legítimo de bootstrapping?)

Mi pregunta es, ¿necesito recortar los valores atípicos del conjunto de datos (por ejemplo, los pocos que gastan mucho) antes de ejecutar el arranque, o eso no importa?

bootstrap outliers usuario31228
fuente

Buena pregunta: probablemente pueda argumentar a favor y en contra de la eliminación de los valores atípicos. ¿Por qué no usar las medianas si te preocupan los valores atípicos y lo que estás buscando es solo una "tendencia central"? Dado que las variables relacionadas con el dinero a menudo tienen una distribución muy sesgada (por ejemplo, Pareto) que podría no ser irrazonable en primer lugar.

usεr11852 dice Reinstate Monic

@ user11852 Las medianas le dicen poco sobre la media, que es lo que es relevante para los ingresos. Sería interesante ver su argumento a favor de eliminar los "valores atípicos", especialmente cuando estos son probablemente los principales contribuyentes a los ingresos totales.

Whuber

Lamentablemente, la mediana siempre sería cero, ya que <10% de los usuarios gastan en absoluto

user31228

@ user11852 Su argumento general de que los valores atípicos son legítimos es útil. Pero, con respecto a la posibilidad de amplificación, me parece que lo contrario es cierto: el arranque tiene la posibilidad de funcionar solo si se usa la muestra completa. De lo contrario, presenta un cuento de hadas, que nos dice cómo serían las cosas si los valores atípicos no existieran, pero obviamente sí. El problema mayor es que el bootstrapping tiene poca justificación teórica cuando se aplica a muestras pequeñas: la teoría es asintótica .

whuber

Esta es una pregunta importante (+1). ¿Puede agregar una pequeña muestra de su conjunto de datos o una muestra simulada similar a la pregunta? Creo que proporcionar una ilustración será más fructífero en este caso.

usuario603

Respuestas:

Antes de abordar esto, es importante reconocer que la mala práctica estadística de "eliminar los valores atípicos" se ha promulgado erróneamente en gran parte de la pedagogía estadística aplicada. Tradicionalmente, los valores atípicos se definen como observaciones de alta influencia y alta influencia. Uno puede y debe identificar tales observaciones en el análisis de datos, pero esas condiciones por sí solas no garantizan la eliminación de esas observaciones. Un "valor atípico verdadero" es una observación de alto apalancamiento / alta influencia que es inconsistente con las réplicas del diseño experimental. Para considerar una observación como tal se requiere un conocimiento especializado de esa población y la ciencia detrás del "mecanismo de generación de datos". El aspecto más importante es que debe ser capaz de identificar posibles valores atípicos a priori .

En cuanto al aspecto de bootstrapping de las cosas, el bootstrap está destinado a simular sorteos independientes y repetidos de la población de muestreo. Si especifica criterios de exclusión en su plan de análisis, aún debe dejar los valores excluidos en la distribución de muestreo de arranque de referencia . Esto se debe a que tendrá en cuenta la pérdida de energía debido a la aplicación de exclusiones después de muestrear sus datos. Sin embargo, si no hay criterios de exclusión preespecificados y los valores atípicos se eliminan mediante una adjudicación post hoc , como obviamente estoy defendiendo, la eliminación de estos valores propagará los mismos errores de inferencia causados por la eliminación de valores atípicos.

Considere un estudio sobre riqueza y felicidad en una muestra aleatoria simple no estratificada de 100 personas. Si tomáramos la declaración, "1% de la población posee el 90% de la riqueza mundial" literalmente, entonces observaríamos, en promedio, un valor muy altamente influyente. Supongamos además que, más allá de proporcionar una calidad de vida básica, no hubo exceso de felicidad atribuible a mayores ingresos (tendencia lineal no constante). Entonces, este individuo también tiene un alto apalancamiento.

El ajuste del coeficiente de regresión de mínimos cuadrados en datos no adulterados estima una tendencia promedio de primer orden de la población en estos datos. Está muy atenuado por nuestro 1 individuo en la muestra cuya felicidad es consistente con los niveles de ingresos medios cercanos. Si eliminamos este individuo, la pendiente de regresión de mínimos cuadrados es mucho mayor, pero la varianza del regresor se reduce, por lo tanto, la inferencia sobre la asociación es aproximadamente la misma. La dificultad para hacer esto es que no especifiqué previamente las condiciones en las que los individuos serían excluidos. Si otro investigador replicara este diseño de estudio, tomarían muestras de un promedio de un individuo de ingresos altos, moderadamente feliz, y obtendrían resultados que fueran inconsistentes con mis resultados "recortados".

Si estuviéramos interesados a priori en la asociación de felicidad de ingresos moderados, entonces deberíamos haber especificado previamente que lo haríamos, por ejemplo, "comparar individuos que ganan menos de $ 100,000 de ingresos familiares anuales". Entonces, eliminar el valor atípico nos hace estimar una asociación que no podemos describir, por lo tanto, los valores p no tienen sentido.

Por otro lado, se pueden eliminar los equipos médicos mal calibrados y las mentiras graciosas de encuestas autoinformadas. Cuanto más exactamente se puedan describir los criterios de exclusión antes de que se realice el análisis real, más válidos y consistentes serán los resultados que tal análisis producirá.

AdamO
fuente

No estoy seguro de entender por qué " si especifica previamente los criterios de exclusión en su plan de análisis, aún debe dejar los valores excluidos en la distribución de muestreo de arranque de referencia " . Menciona que esto es " porque tendrá en cuenta la pérdida de potencia debido a aplicando exclusiones después de muestrear sus datos. "No veo por qué se supone que aplicar criterios de exclusión después del muestreo conduce a la pérdida de potencia, ni cómo / por qué dejar los casos excluidos en la muestra de bootstrap" explica "(?) esto, ni más por qué esto es algo que claramente debe ser "explicado". Tal vez estoy siendo denso aquí.

Jake Westfall

p

$p$

Hmm, mi pensamiento era que si uno especificara los criterios de exclusión por adelantado, de modo que explícitamente no nos interesen ciertos tipos de casos, y presumiblemente las futuras réplicas de estudios usarían estos mismos criterios de exclusión, entonces tendría sentido abandonar esos casos están fuera de la muestra de bootstrap, ya que son un segmento de la población sobre el que no deseamos hacer ninguna inferencia. Me veo cómo las futuras repeticiones podrían acabar excluyendo a una parte diferente de los casos, pero no acabo de hacer la conexión a qué esto es importante para los casos que expresamente se interesado en ..

Jake Westfall

p

$p$

H_{0}

$\mathcal{H}_0$

Mirar esto como un problema atípico me parece incorrecto. Si "<10% de los usuarios gastan", debe modelar ese aspecto. La regresión de Tobit o Heckman serían dos posibilidades.

JKP
fuente

En la actualidad, esto es más un comentario que una respuesta. ¿Te importaría expandirlo un poco para que tenga más respuestas?

gung - Restablece a Monica