La idea del análisis de datos adaptativo es que modifique su plan para analizar los datos a medida que aprenda más sobre ellos. En el caso del análisis exploratorio de datos (EDA), generalmente es una buena idea (a menudo busca patrones imprevistos en los datos), pero para un estudio confirmatorio, esto es ampliamente aceptado como un método de análisis muy defectuoso (a menos que todos los pasos están claramente definidos y adecuadamente planificados en avanzado).
Dicho esto, el análisis de datos adaptativos suele ser la cantidad de investigadores que realmente realizan sus análisis, para consternación de los estadísticos. Como tal, si uno pudiera hacer esto de una manera estadística válida, revolucionaría la práctica estadística.
El siguiente artículo de Science afirma haber encontrado un método para hacerlo (pido disculpas por el muro de pago, pero si estás en una universidad, es probable que tengas acceso): Dwork et al, 2015, The holdout reutilizable: preservar la validez en el análisis de datos adaptativo .
Personalmente, siempre he sido escéptico sobre los artículos de estadísticas publicados en Science , y este no es diferente. De hecho, después de leer el artículo dos veces, incluido el material complementario, no puedo entender (en absoluto) por qué los autores afirman que su método evita un ajuste excesivo.
Tengo entendido que tienen un conjunto de datos de reserva, que reutilizarán. Parecen afirmar que al "difuminar" la salida del análisis confirmatorio en el conjunto de datos de reserva, se evitará el sobreajuste (vale la pena señalar que el difuminado parece estar simplemente agregando ruido si la estadística calculada en los datos de entrenamiento está lo suficientemente lejos) de la estadística calculada en los datos de reserva ). Por lo que puedo decir, no hay una razón real por la que esto evite un ajuste excesivo.
¿Me equivoco con lo que proponen los autores? ¿Hay algún efecto sutil que estoy pasando por alto? ¿O ha respaldado Science la peor práctica estadística hasta la fecha?
Respuestas:
Hay una publicación en el blog de los autores que describe esto a un alto nivel.
Para citar desde el principio de esa publicación:
No puedo ver cómo su técnica aborda este problema en absoluto. Entonces, en respuesta a su pregunta, creo que no abordan el Jardín de los caminos de bifurcación, y en ese sentido su técnica inducirá a las personas a una falsa sensación de seguridad. No es muy diferente de decir "Utilicé la validación cruzada" a muchos, que usaron CV no anidados, en una falsa sensación de seguridad.
Me parece que la mayor parte de la publicación del blog apunta a su técnica como una mejor respuesta a cómo evitar que los participantes en una competencia al estilo Kaggle escalen el gradiente del conjunto de pruebas. Lo cual es útil, pero no aborda directamente los caminos de bifurcación. Parece que tiene el sabor de Wolfram y la Nueva Ciencia de Google, donde se harán cargo de grandes cantidades de datos. Esa narrativa tiene un registro mixto, y siempre soy escéptico de la magia automatizada.
fuente
Estoy seguro de que estoy simplificando demasiado esta técnica de privacidad diferencial aquí, pero la idea tiene sentido en un alto nivel.
Cuando obtienes un algoritmo para escupir un buen resultado (wow, la precisión en mi conjunto de pruebas realmente ha mejorado), no quieres saltar a la conclusión de inmediato. Desea aceptarlo solo cuando la mejora es significativamente mayor que el algoritmo anterior. Esa es la razón para agregar ruido.
EDITAR: Este blog tiene una buena explicación y códigos R para demostrar la efectividad del sumador de ruido, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
fuente
La afirmación de que agregar ruido ayuda a prevenir el sobreajuste realmente retiene el agua aquí, ya que lo que realmente están haciendo es limitar cómo se reutiliza la retención . Su método en realidad hace dos cosas: limita el número de preguntas que se pueden hacer al holdout, y cuánto de cada una de las respuestas revela sobre los datos del holdout.
El núcleo de su método es una relación entre la estabilidad algorítmica y el sobreajuste, que se remonta a finales de la década de 1970 (Devroye y Wagner 1978). Aproximadamente, dice
Ahora hay bastantes documentos que analizan cómo los diferentes procedimientos de adición de ruido controlan el sobreajuste. Una relativamente legible es la de Russo y Zou ( https://arxiv.org/abs/1511.05219 ). Algunos documentos de seguimiento más recientes sobre el trabajo inicial de Dwork et al. También podría ser útil para mirar. (Descargo de responsabilidad: tengo dos documentos sobre el tema, el más reciente explicando una conexión con la prueba de hipótesis adaptativa: https://arxiv.org/abs/1604.03924 .)
Espero que todo ayude.
fuente
Me opongo a tu segunda oración. La idea de que el plan completo de análisis de datos debe determinarse de antemano no está justificada, incluso en un entorno en el que está tratando de confirmar una hipótesis científica preexistente. Por el contrario, cualquier análisis de datos decente requerirá cierta atención a los datos reales que se han adquirido. Los investigadores que creen lo contrario son generalmente investigadores que creen que las pruebas de significación son el comienzo y el final del análisis de datos, con poco o ningún papel para las estadísticas descriptivas, los gráficos, la estimación, la predicción, la selección del modelo, etc. En ese contexto, el requisito de arreglar los planes analíticos de antemano tiene más sentido porque las formas convencionales en las que pLos valores calculados requieren que el tamaño de la muestra y las pruebas a realizar se decidan antes de ver los datos. Este requisito afecta al analista y, por lo tanto, es una de las muchas buenas razones para no utilizar pruebas de significación.
Puede objetar que permitir que el analista elija qué hacer después de ver los datos permite un sobreajuste. Lo hace, pero un buen analista mostrará todos los análisis que realizó, dirá explícitamente qué información en los datos se utilizó para tomar decisiones analíticas y utilizará métodos como la validación cruzada de manera apropiada. Por ejemplo, generalmente está bien recodificar variables basadas en la distribución de valores obtenida, pero elegir para algún análisis los 3 predictores de 100 que tienen la asociación observada más cercana a la variable dependiente significa que las estimaciones de asociación serán positivas sesgada, por el principio de regresión a la media. Si desea hacer una selección de variables en un contexto predictivo, debe seleccionar variables dentro de sus pliegues de validación cruzada, o utilizando solo los datos de entrenamiento.
fuente