¿La revista Science ha respaldado los análisis de Garden of Forking Pathes?

29

La idea del análisis de datos adaptativo es que modifique su plan para analizar los datos a medida que aprenda más sobre ellos. En el caso del análisis exploratorio de datos (EDA), generalmente es una buena idea (a menudo busca patrones imprevistos en los datos), pero para un estudio confirmatorio, esto es ampliamente aceptado como un método de análisis muy defectuoso (a menos que todos los pasos están claramente definidos y adecuadamente planificados en avanzado).

Dicho esto, el análisis de datos adaptativos suele ser la cantidad de investigadores que realmente realizan sus análisis, para consternación de los estadísticos. Como tal, si uno pudiera hacer esto de una manera estadística válida, revolucionaría la práctica estadística.

El siguiente artículo de Science afirma haber encontrado un método para hacerlo (pido disculpas por el muro de pago, pero si estás en una universidad, es probable que tengas acceso): Dwork et al, 2015, The holdout reutilizable: preservar la validez en el análisis de datos adaptativo .

Personalmente, siempre he sido escéptico sobre los artículos de estadísticas publicados en Science , y este no es diferente. De hecho, después de leer el artículo dos veces, incluido el material complementario, no puedo entender (en absoluto) por qué los autores afirman que su método evita un ajuste excesivo.

Tengo entendido que tienen un conjunto de datos de reserva, que reutilizarán. Parecen afirmar que al "difuminar" la salida del análisis confirmatorio en el conjunto de datos de reserva, se evitará el sobreajuste (vale la pena señalar que el difuminado parece estar simplemente agregando ruido si la estadística calculada en los datos de entrenamiento está lo suficientemente lejos) de la estadística calculada en los datos de reserva ). Por lo que puedo decir, no hay una razón real por la que esto evite un ajuste excesivo.

¿Me equivoco con lo que proponen los autores? ¿Hay algún efecto sutil que estoy pasando por alto? ¿O ha respaldado Science la peor práctica estadística hasta la fecha?

hypothesis-testing overfitting eda out-of-sample differential-privacy Acantilado
fuente

2

Quienes no tienen acceso a Science pueden consultar este reciente artículo de noticias de Science sobre cómo se puede acceder a los documentos de pago.

ameba dice Reinstate Monica

1

¿Es esto posiblemente una preimpresión: arxiv.org/pdf/1411.2664.pdf ?

Tim

1

@Tim: el artículo de Science cita la preimpresión que publicaste. Además, la sección de adición de ruido laplaciano parece muy similar, pero no idéntica, a los métodos del artículo publicado.

Cliff AB

1

@CliffAB por lo que posiblemente usaron privacidad diferencial para hacerlos diferentes;)

Tim

44

Este tema es en realidad un tutorial en ICML el mes pasado. "Riguroso dragado de datos: teoría y herramientas para el análisis adaptativo de datos" por algún compañero de google. icml.cc/2016/?page_id=97

horaceT

7

Hay una publicación en el blog de los autores que describe esto a un alto nivel.

Para citar desde el principio de esa publicación:

Para reducir el número de variables y simplificar nuestra tarea, primero seleccionamos algunas variables prometedoras, por ejemplo, aquellas que tienen una correlación positiva con la variable de respuesta (presión arterial sistólica). Luego ajustamos un modelo de regresión lineal en las variables seleccionadas. Para medir la bondad de nuestro ajuste del modelo, realizamos una prueba F estándar de nuestro libro de texto de estadísticas favorito e informamos el valor p resultante.

Freedman demostró que el valor p informado es altamente engañoso, incluso si los datos fueran completamente aleatorios sin correlación alguna entre la variable de respuesta y los puntos de datos, ¡probablemente observaríamos un valor p significativo! El sesgo proviene del hecho de que seleccionamos un subconjunto de las variables de forma adaptativa en función de los datos, pero nunca damos cuenta de este hecho. Hay una gran cantidad de subconjuntos posibles de variables que seleccionamos. El mero hecho de que elegimos una prueba sobre la otra al observar los datos crea un sesgo de selección que invalida los supuestos subyacentes a la prueba F.

La paradoja de Freedman es una importante lección. Los niveles de importancia de los procedimientos estándar no capturan la gran cantidad de análisis que uno puede elegir realizar u omitir. Por esta razón, la adaptabilidad es una de las principales explicaciones de por qué los resultados de la investigación son con frecuencia falsos, como argumentaron Gelman y Loken, quienes se refieren acertadamente a la adaptabilidad como "jardín de los caminos de bifurcación".

No puedo ver cómo su técnica aborda este problema en absoluto. Entonces, en respuesta a su pregunta, creo que no abordan el Jardín de los caminos de bifurcación, y en ese sentido su técnica inducirá a las personas a una falsa sensación de seguridad. No es muy diferente de decir "Utilicé la validación cruzada" a muchos, que usaron CV no anidados, en una falsa sensación de seguridad.

Me parece que la mayor parte de la publicación del blog apunta a su técnica como una mejor respuesta a cómo evitar que los participantes en una competencia al estilo Kaggle escalen el gradiente del conjunto de pruebas. Lo cual es útil, pero no aborda directamente los caminos de bifurcación. Parece que tiene el sabor de Wolfram y la Nueva Ciencia de Google, donde se harán cargo de grandes cantidades de datos. Esa narrativa tiene un registro mixto, y siempre soy escéptico de la magia automatizada.

Wayne
fuente

3

Estoy seguro de que estoy simplificando demasiado esta técnica de privacidad diferencial aquí, pero la idea tiene sentido en un alto nivel.

Cuando obtienes un algoritmo para escupir un buen resultado (wow, la precisión en mi conjunto de pruebas realmente ha mejorado), no quieres saltar a la conclusión de inmediato. Desea aceptarlo solo cuando la mejora es significativamente mayor que el algoritmo anterior. Esa es la razón para agregar ruido.

EDITAR: Este blog tiene una buena explicación y códigos R para demostrar la efectividad del sumador de ruido, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/

horaceT
fuente

> τ

$> \tau$

1

@CliffAB Tengo la misma sensación molesta de por qué esto funciona mejor que un simple umbral. ¡Pero tienen pruebas!

horaceT

> τ

$> \tau$

@CliffAB ¿Puedes elaborar? ¿dónde? That'a una posibilidad intrigante ....

horaceT

Al usar las diapositivas de su enlace anterior ( icml.cc/2016/?page_id=97 ), en las diapositivas 72 y 73, incluso cuando se usa el método "Umbral de salida", la precisión de retención es mayor que los datos nuevos en cada simulación, aunque funciona mejor que la "retención estándar" (que es realmente "abuso estándar del conjunto de datos de validación", no un procedimiento estadístico válido real). Para su información, la trama aparece en las diapositivas para ser la misma en el documento de Ciencia (en caso de que no tenga acceso).

Cliff AB

3

La afirmación de que agregar ruido ayuda a prevenir el sobreajuste realmente retiene el agua aquí, ya que lo que realmente están haciendo es limitar cómo se reutiliza la retención . Su método en realidad hace dos cosas: limita el número de preguntas que se pueden hacer al holdout, y cuánto de cada una de las respuestas revela sobre los datos del holdout.

$k$ $k$ $n$ $n/k$

$n/\sqrt{k}$ $k$

El núcleo de su método es una relación entre la estabilidad algorítmica y el sobreajuste, que se remonta a finales de la década de 1970 (Devroye y Wagner 1978). Aproximadamente, dice

$A$ $X$ $q=A(X)$ $A$ $X$ $P$ $q$ $x$ $q$ $P$

$A(\cdot)$ $f(A(\cdot))$ $f$ $q$ $A$ $A$

Ahora hay bastantes documentos que analizan cómo los diferentes procedimientos de adición de ruido controlan el sobreajuste. Una relativamente legible es la de Russo y Zou ( https://arxiv.org/abs/1511.05219 ). Algunos documentos de seguimiento más recientes sobre el trabajo inicial de Dwork et al. También podría ser útil para mirar. (Descargo de responsabilidad: tengo dos documentos sobre el tema, el más reciente explicando una conexión con la prueba de hipótesis adaptativa: https://arxiv.org/abs/1604.03924 .)

Espero que todo ayude.

Adam Smith
fuente

0

Me opongo a tu segunda oración. La idea de que el plan completo de análisis de datos debe determinarse de antemano no está justificada, incluso en un entorno en el que está tratando de confirmar una hipótesis científica preexistente. Por el contrario, cualquier análisis de datos decente requerirá cierta atención a los datos reales que se han adquirido. Los investigadores que creen lo contrario son generalmente investigadores que creen que las pruebas de significación son el comienzo y el final del análisis de datos, con poco o ningún papel para las estadísticas descriptivas, los gráficos, la estimación, la predicción, la selección del modelo, etc. En ese contexto, el requisito de arreglar los planes analíticos de antemano tiene más sentido porque las formas convencionales en las que pLos valores calculados requieren que el tamaño de la muestra y las pruebas a realizar se decidan antes de ver los datos. Este requisito afecta al analista y, por lo tanto, es una de las muchas buenas razones para no utilizar pruebas de significación.

Puede objetar que permitir que el analista elija qué hacer después de ver los datos permite un sobreajuste. Lo hace, pero un buen analista mostrará todos los análisis que realizó, dirá explícitamente qué información en los datos se utilizó para tomar decisiones analíticas y utilizará métodos como la validación cruzada de manera apropiada. Por ejemplo, generalmente está bien recodificar variables basadas en la distribución de valores obtenida, pero elegir para algún análisis los 3 predictores de 100 que tienen la asociación observada más cercana a la variable dependiente significa que las estimaciones de asociación serán positivas sesgada, por el principio de regresión a la media. Si desea hacer una selección de variables en un contexto predictivo, debe seleccionar variables dentro de sus pliegues de validación cruzada, o utilizando solo los datos de entrenamiento.

Kodiólogo
fuente

2

Creo que mucho de lo que está sugiriendo encaja en el ámbito del análisis exploratorio de datos (EDA), para lo cual sí apoyé los métodos de análisis de datos adaptativos. También creo que EDA está subestimado y debería recibir más crédito. Pero todo esto es ortogonal a la pregunta en cuestión, que es "¿Estos autores realmente nos han permitido reutilizar repetidamente los datos de validación para la selección del modelo en un método estadístico válido?" Su última oración sugiere que usted, como yo, es algo escéptico ante tales hallazgos.

Cliff AB

No creo, por ejemplo, la estimación es inherentemente exploratoria, no. Si tiene una hipótesis científica que dice que la longitud máxima de un cocodrilo debe ser de 12 pies e intenta estimar la longitud máxima de un cocodrilo para verificar esto, está haciendo un análisis confirmatorio.

Kodiólogo

2

+1, a pesar de tres votos negativos existentes. Estoy de acuerdo con el punto principal de esta respuesta (su segunda oración), aunque soy plenamente consciente de que es bastante controvertido. En general, creo que la diferencia entre el análisis exploratorio y el confirmatorio está sobrevalorada; El análisis de la vida real suele estar en algún punto intermedio. Dicho esto, no creo que hayas respondido (o incluso intentado responder) a la pregunta de OP que trataba sobre Dwork et al. papel.

ameba dice Reinstate Monica

@amoeba "No creo que hayas respondido (o incluso intentado contestar) la pregunta de OP que era sobre Dwork et al. paper" - Es cierto, aunque todavía parecía que valía la pena publicarlo como respuesta porque arroja dudas sobre lo que parece ser un premisa de la pregunta.

Kodiólogo

2

+1 al comentario de @ ameeba. Este habría sido un gran comentario a la pregunta, pero no es una respuesta.

S. Kolassa - Restablece a Monica el

¿La revista Science ha respaldado los análisis de Garden of Forking Pathes?

Respuestas: