Realizar una prueba estadística después de visualizar datos: ¿dragado de datos?

Propondré esta pregunta por medio de un ejemplo.

Supongamos que tengo un conjunto de datos, como el conjunto de datos del precio de la vivienda de Boston, en el que tengo variables continuas y categóricas. Aquí, tenemos una variable de "calidad", del 1 al 10, y el precio de venta. Puedo separar los datos en casas de calidad "baja", "media" y "alta" creando (arbitrariamente) límites para la calidad. Luego, usando estas agrupaciones, puedo trazar histogramas del precio de venta uno contra el otro. Al igual que:

Aquí, "bajo" es , y "alto" es en el puntaje de "calidad". Ahora tenemos una distribución de los precios de venta para cada uno de los tres grupos. Está claro que hay una diferencia en el centro de ubicación de las casas de calidad media y alta. Ahora, después de haber hecho todo esto, creo "Hm. ¡Parece haber una diferencia en el centro de la ubicación! ¿Por qué no hago una prueba t de los medios?". Luego, obtengo un valor p que parece rechazar correctamente la hipótesis nula de que no hay diferencia en las medias. $\leq 3$ $>7$

Ahora, supongamos que no tengo nada en mente para probar esta hipótesis hasta que trace los datos.

¿Es este dragado de datos?

¿Todavía es dragado de datos si pensaba: "Hm, apuesto a que las casas de mayor calidad cuestan más, ya que soy un humano que ha vivido en una casa antes. Voy a trazar los datos. ¡Ah, ja! ¡Parece diferente! Tiempo a prueba t!

Naturalmente, no es dragado de datos si el conjunto de datos se recopiló con la intención de probar esta hipótesis desde el principio. Pero a menudo uno tiene que trabajar con los conjuntos de datos que se nos dan y se les dice que "busquen patrones". ¿Cómo alguien evita el dragado de datos con esta vaga tarea en mente? ¿Crear conjuntos de espera para probar datos? ¿La visualización "cuenta" como espiar una oportunidad para probar una hipótesis sugerida por los datos?

hypothesis-testing data-visualization p-value dataset inference Marcel
fuente

Respuestas:

En desacuerdo brevemente con / dando un contrapunto a la respuesta de @ ingolifs: sí, es esencial visualizar sus datos. Pero visualizar antes de decidirse por el análisis lo lleva al jardín de caminos bifurcados de Gelman y Loken . Esto no es lo mismo que el dragado de datos o el hackeo p, en parte por intención (el GoFP es típicamente bien intencionado) y en parte porque no puede ejecutar más de un análisis. Pero es una forma de espiar: debido a que su análisis depende de los datos, puede llevarlo a conclusiones falsas o demasiado confiadas.

De alguna manera, debe determinar cuál es su análisis previsto (por ejemplo, "las casas de alta calidad deberían tener un precio más alto") y anotarlo (o incluso registrarlo oficialmente) antes de ver sus datos (está bien ver sus variables predictoras en avance, simplemente no las variables de respuesta, pero si realmente no tiene ideas a priori , entonces ni siquiera sabe qué variables podrían ser predictores y cuáles podrían ser respuestas); Si sus datos sugieren algunos análisis diferentes o adicionales, entonces su informe puede indicar lo que quiso hacer inicialmente y qué (y por qué) terminó haciendo.

Si realmente está haciendo una exploración pura (es decir, no tiene hipótesis a priori , solo quiere ver qué hay en los datos):

sus pensamientos acerca de ofrecer una muestra para confirmar son buenos
- En mi mundo (no trabajo con grandes conjuntos de datos), la pérdida de resolución debido a un tamaño de muestra más bajo sería agonizante
- debe tener un poco de cuidado al seleccionar su muestra reservada si sus datos están estructurados de alguna manera (geográficamente, series de tiempo, etc., etc.). Submuestrear como si los datos fueran iid conduce a un exceso de confianza (ver Métodos de Wenger y Olden en Ecología y Evolución 2012), por lo que es posible que desee elegir unidades geográficas para resistir (ver Métodos DJ Harris en Ecología y Evolución 2015 para un ejemplo)
puedes admitir que estás siendo puramente exploratorio. Idealmente, evitarías los valores p por completo en este caso, pero al menos decirle a tu audiencia que estás deambulando por el GoFP les hace saber que pueden tomar los valores p con enormes granos de sal.

Mi referencia favorita para "prácticas estadísticas seguras" son las Estrategias de modelado de regresión de Harrell (Springer); expone las mejores prácticas para inferencia vs. predicción vs. exploración, de una manera rigurosa pero práctica.

Ben Bolker
fuente

Muy bien puesto! Espero referir a las personas a esta respuesta en el futuro.

Genial38

Exactamente el tipo de respuesta que estaba buscando, gracias. He acreditado esta respuesta como una respuesta. ¿Conoces algún recurso que enseñe prácticas estadísticas seguras? Quizás un poco más amplio que los artículos (excelentes) que ha publicado

Marcel,

Gran respuesta (+1), pero no estoy de acuerdo con que esto sea diferente al dragado de datos; la intención es irrelevante; el efecto es el mismo.

Vuelva a instalar Mónica

De hecho, creo que vale la pena mantener la distinción entre las diferentes formas de espiar. El dragado es posiblemente más severo porque involucra (1) múltiples pruebas explícitas en lugar de múltiples pruebas implícitas y (2) pruebas condicionales / continuas hasta que se logre p <0.05 (o lo que sea). El efecto cualitativo es ciertamente el mismo.

Ben Bolker

Visualizar los datos es una parte indispensable del análisis y una de las primeras cosas que debe hacer con un conjunto de datos desconocido. Un globo ocular rápido de los datos puede informar los pasos a seguir a continuación. De hecho, debería ser bastante obvio al mirar el gráfico que las medias son diferentes, y no estoy seguro de por qué fue necesaria una prueba T para confirmar esto: los medios están lo suficientemente separados como para que el gráfico en sí sea toda la evidencia que quisiera. exigir.

$R^2$

Sin embargo, creo que hay una pregunta más profunda aquí. ¿Cómo se mantiene una neutralidad zen y se evita el sesgo cuando se trata de datos de manera científica? La respuesta es que no. O más bien, no tienes que hacerlo. Formar corazonadas e hipótesis y construir una narrativa mental de lo que significan los datos, es perfectamente natural y aceptable, siempre que sepa que lo está haciendo y esté mentalmente preparado para reconsiderar todas estas hipótesis cuando se enfrente a datos contradictorios.

Ingolifs
fuente

Visualizar datos antes de ejecutar pruebas puede ser inocuo en este caso específico. Sin embargo, a continuación, se visualizaría otra dimensión ... y otra ... y se verían los diagramas de dispersión ... y muy pronto, se encontrará algo que parezca "lo suficientemente obvio" para que una prueba formal y una narrativa sean naturales. Ah, sí, el dragado de datos es definitivamente algo que puedes hacer fácilmente por accidente. Vea el "Jardín de caminos bifurcados" de Gelman .

S. Kolassa - Restablece a Mónica el