¿Son inútiles todos los modelos? ¿Es posible algún modelo exacto, o útil?

45

Esta pregunta ha estado enconándose en mi mente durante más de un mes. La edición de febrero de 2015 de Amstat News contiene un artículo del profesor Mark van der Laan de Berkeley que regaña a las personas por usar modelos inexactos. Afirma que al usar modelos, la estadística es entonces un arte más que una ciencia. Según él, uno siempre puede usar "el modelo exacto" y que nuestro fracaso contribuye a una "falta de rigor ... Me temo que nuestra representación en la ciencia de datos se está marginando".

Estoy de acuerdo en que estamos en peligro de ser marginados, pero la amenaza generalmente proviene de aquellos que afirman (parece que se parece mucho al profesor van der Laan) que no están utilizando algún método aproximado, pero cuyos métodos son, de hecho, mucho menos rigurosos que los modelos estadísticos cuidadosamente aplicados, incluso los incorrectos.

Creo que es justo decir que el profesor van der Laan desprecia a quienes repiten la cita de Box, "todos los modelos están equivocados, pero algunos son útiles". Básicamente, mientras lo leo, dice que todos los modelos están equivocados y que todos son inútiles. Ahora, ¿quién soy yo para estar en desacuerdo con un profesor de Berkeley? Por otro lado, ¿quién es él para descartar tan caballerosamente las opiniones de uno de los gigantes reales en nuestro campo?

Al elaborar, el Dr. van der Laan afirma que "es un completo disparate decir que todos los modelos están equivocados ... Por ejemplo, un modelo estadístico que no hace suposiciones siempre es cierto". Él continúa: "Pero a menudo, podemos hacerlo mucho mejor que eso: podríamos saber que los datos son el resultado de experimentos idénticos independientes". No veo cómo se puede saber eso, excepto en un muestreo aleatorio muy estrecho o en entornos experimentales controlados. El autor señala su trabajo en el aprendizaje dirigido de máxima probabilidad y el aprendizaje basado en la pérdida mínima dirigida, que "integra el estado del arte en el aprendizaje automático / estimación adaptativa de datos, todos los increíbles avances en inferencia causal, datos censurados, eficiencia y empírico teoría del proceso mientras se sigue proporcionando inferencia estadística formal ".n

También hay algunas declaraciones con las que estoy de acuerdo. Él dice que debemos tomar en serio nuestro trabajo, nuestro papel como estadísticos y nuestros colaboradores científicos. ¡Escucha Escucha! Ciertamente, es una mala noticia cuando las personas usan rutinariamente un modelo de regresión logística, o lo que sea, sin considerar cuidadosamente si es adecuado para responder la pregunta científica o si se ajusta a los datos. Y veo muchos de estos abusos en las preguntas publicadas en este foro. Pero también veo usos efectivos y valiosos de modelos inexactos, incluso paramétricos. Y, contrariamente a lo que dice, rara vez he estado "aburrido hasta la muerte por otro modelo de regresión logística". Tal es mi ingenuidad, supongo.

Asi que aqui están mis preguntas:

  1. ¿Qué inferencias estadísticas útiles se pueden hacer usando un modelo que no hace suposiciones?
  2. ¿Existe un estudio de caso, con datos importantes y reales en el uso de la máxima probabilidad específica? ¿Son estos métodos ampliamente utilizados y aceptados?
  3. ¿Todos los modelos inexactos son realmente inútiles?
  4. ¿Es posible saber que tiene el modelo exacto que no sea en casos triviales?
  5. Si esto está demasiado basado en la opinión y, por lo tanto, fuera de tema, ¿dónde se puede discutir? Porque el artículo del Dr. van der Laan definitivamente necesita alguna discusión.
rvl
fuente
13
Yo diría que un modelo sin suposiciones es casi siempre inútil, pero van der Laan seguramente está haciendo suposiciones sin admitirlo. Realmente no sabemos muchas cosas con certeza, por lo que su "Podríamos saber que los datos son el resultado de n experimentos idénticos independientes" es, de hecho, una suposición , o al menos parcialmente. Podríamos tener buenas razones para suponer que son idénticos e independientes, pero en la práctica vemos que muy a menudo resulta que no fue realmente el caso (y si descubrimos que a veces, debe descubrirse a veces, presumiblemente con mucha más frecuencia). )
Glen_b
19
Un modelo sin supuestos es solo una réplica de su matriz de datos. Es cierto, pero también una duplicación inútil del esfuerzo. También se podría argumentar que dicho modelo no es un modelo: una definición de un modelo es que es una simplificación de la realidad. Entonces, un modelo que no se simplifica es, por definición, no un modelo. Esa simplificación tiene un propósito: nos ayuda a comprender sustancialmente lo que está sucediendo; Nos da una historia principal. Si no te importa entender por qué suceden las cosas y solo quieres predecir, esa historia principal es irrelevante. Sin embargo, algunos quieren hacer más que crear una bola de cristal ...
Maarten Buis
8
Un modelo sin supuestos no es un modelo. El modelo ES una colección de supuestos. Además, como dice @Glen_b, la suposición de iid es bastante sólida, y no puedo pensar en un ejemplo en el que sea "verdadera". Incluso cuando se lanza una moneda repetidamente, hay correlaciones (ver el trabajo de Diaconis). Solo he leído el artículo, pero parece miope.
P.Windridge
11
El primer ejemplo del autor sobre volar a Marte es falso. La mecánica newtoniana (que se basa en muchos aspectos de las misiones espaciales) es un modelo incorrecto , pero confiamos en él y es útil.
P.Windridge
66
Sí, la mecánica newtoniana es un gran ejemplo del punto de George Box.
Glen_b

Respuestas:

15

El artículo citado parece estar basado en los temores de que los estadísticos "no serán una parte intrínseca del equipo científico, y los científicos naturalmente tendrán sus dudas sobre los métodos utilizados" y que "los colaboradores nos verán como técnicos que pueden orientar para obtener sus resultados científicos publicados ". Mis comentarios sobre las preguntas planteadas por @rvl provienen de la perspectiva de un científico biológico no estadístico que se ha visto obligado a lidiar con problemas estadísticos cada vez más complicados a medida que pasé de la investigación de banco a la investigación traslacional / clínica en los últimos años. La pregunta 5 está claramente respondida por las múltiples respuestas ahora en esta página; Iré en orden inverso desde allí.

4) Realmente no importa si existe un "modelo exacto", porque incluso si lo hace, probablemente no podré permitirme hacer el estudio. Considere este tema en el contexto de la discusión: ¿Realmente necesitamos incluir "todos los predictores relevantes"? Incluso si podemos identificar a "todos los predictores relevantes", todavía habrá el problema de recopilar datos suficientes para proporcionar los grados de libertad para incorporar todos ellos de manera confiable en el modelo. Eso es bastante difícil en estudios experimentales controlados, y mucho menos en estudios retrospectivos o de población. Tal vez en algunos tipos de "Big Data" eso sea un problema menor, pero es para mí y mis colegas. Siempre habrá la necesidad de "ser inteligente al respecto", ya que @Aksakal le dio una respuesta en esa página.

Para ser justos con el profesor van der Laan, no usa la palabra "exacto" en el artículo citado, al menos en la versión actualmente disponible en línea desde el enlace . Habla de modelos "realistas". Esa es una distinción importante.

Por otra parte, el profesor van der Laan se queja de que "la estadística es ahora un arte, no una ciencia", lo cual es más que injusto por su parte. Considere la forma en que propone trabajar con colaboradores:

... necesitamos tomar en serio los datos, nuestra identidad como estadísticos y nuestros colaboradores científicos. Necesitamos aprender lo más posible sobre cómo se generaron los datos. Una vez que hemos planteado un modelo estadístico realista, necesitamos extraer de nuestros colaboradores qué estimación y mejor representa la respuesta a su pregunta científica de interés. Esto es un montón de trabajo. Es difícil. Requiere una comprensión razonable de la teoría estadística. ¡Es una empresa académica digna!

La aplicación de estos principios científicos a problemas del mundo real parecería requerir una gran cantidad de "arte", como ocurre con el trabajo en cualquier empresa científica. Conozco algunos científicos muy exitosos, muchos más que hicieron bien y algunos fracasos. En mi experiencia, la diferencia parece estar en el "arte" de buscar objetivos científicos. El resultado puede ser ciencia, pero el proceso es algo más.

3) Nuevamente, parte del problema es terminológico; Hay una gran diferencia entre un modelo "exacto" y los modelos "realistas" que busca el profesor van der Laan. Su afirmación es que muchos modelos estadísticos estándar son lo suficientemente poco realistas como para producir resultados "poco confiables". En particular: "Los estimadores de un estimado y definidos en un modelo estadístico honesto no pueden estimarse sensiblemente en base a modelos paramétricos". Esos son asuntos de prueba, no de opinión.

Su propio trabajo reconoce claramente que los modelos exactos no siempre son posibles. Considere este manuscrito sobre estimadores de máxima verosimilitud focalizados (TMLE) en el contexto de variables de resultado faltantes. Se basa en una suposición de resultados que faltan al azar, lo que puede no ser comprobable en la práctica: "... asumimos que no hay factores de confusión no observados de la relación entre la falta ... y el resultado". Este es otro ejemplo de la dificultad de incluir "todos los predictores relevantes". Sin embargo, una fortaleza de TMLE es que parece ayudar a evaluar el "supuesto de positividad" de un soporte adecuado en los datos para estimar el parámetro objetivo en este contexto. El objetivo es acercarse lo más posible a un modelo realista de los datos.

2) TMLE ha sido discutido en Cross Validated anteriormente. No tengo conocimiento del uso generalizado de datos reales. Google Scholar mostró hoy 258 citas de lo que parece ser el informe inicial , pero a primera vista ninguno parecía estar en grandes conjuntos de datos del mundo real. El artículo del Journal of Statistical Software sobre el paquete R asociado solo muestra 27 citas de Google Scholar en la actualidad. Sin embargo, eso no debe tomarse como evidencia sobre el valor de TMLE. Su enfoque en la obtención de estimaciones confiables e imparciales del "estimado" de interés real, a menudo un problema con las estimaciones complementarias derivadas de modelos estadísticos estándar, parece potencialmente valioso.

1) La afirmación: "un modelo estadístico que no hace suposiciones siempre es cierto" parece ser un hombre de paja, una tautología. Los datos son los datos. Supongo que hay leyes del universo que permanecen consistentes día a día. El método TMLE presumiblemente contiene supuestos sobre convexidad en el espacio de búsqueda, y como se señaló anteriormente, su aplicación en un contexto particular podría requerir supuestos adicionales.

Incluso el profesor van der Laan estaría de acuerdo en que algunos supuestos son necesarios. Mi sensación es que le gustaría minimizar el número de suposiciones y evitar aquellas que no son realistas. Si eso realmente requiere renunciar a los modelos paramétricos, como parece afirmar, es la pregunta crucial.

EdM
fuente
Muy buena respuesta. El libro Aprendizaje dirigido es un buen lugar para aprender más. Además de la teoría, contiene algunos estudios de caso.
NRH
12

Tal vez me perdí el punto, pero creo que tienes que retroceder un poco.

Creo que su punto es el abuso de herramientas de fácil acceso sin mayor conocimiento. Esto también es cierto para una prueba t simple: solo alimente el algoritmo con sus datos, obtenga una p <0.05 y piense que su tesis es verdadera. Completamente mal. Usted, por supuesto, debe saber más sobre sus datos.

Retrocediendo aún más: no hay nada como un modelo exacto ( aquí el físico ). Pero algunos están muy de acuerdo con nuestras medidas. Lo único exacto son las matemáticas. Lo que no tiene nada que ver con la realidad o sus modelos . Todo lo demás (y cada modelo de la realidad) está "mal" (como se cita con tanta frecuencia).

Pero, ¿qué significa "incorrecto" y útil? Juzgue usted mismo:

TODA nuestra alta tecnología actual (computadoras, cohetes, radiactividad, etc.) se basa en estos modelos incorrectos. Tal vez incluso calculado por simulaciones "incorrectas" con modelos "incorrectos".
-> Centrarse más en lo "útil" en lugar de "incorrecto";)

Más explícitamente a sus preguntas:

  1. No se, lo siento
  2. Sí. Un ejemplo: en física de partículas, desea detectar ciertas partículas (por ejemplo, electrones, protones, etc.). Cada partícula deja un rastro característico en el detector (y, por lo tanto, los datos), pero varía incluso para la misma partícula (por su naturaleza). Hoy en día, la mayoría de las personas usan el aprendizaje automático para lograr este objetivo (esta fue una gran simplificación, pero es más o menos así) y hay un aumento en la eficiencia del 20% al 50% en comparación con hacerlo a mano .
  3. ¡Nadie realmente afirmó esto! ¡No hagas una conclusión equivocada! (a: todos los modelos son inexactos yb: algunos son útiles. No confunda las cosas)
  4. No hay nada como un modelo exacto ( excepto en matemáticas, pero no realmente en estadísticas, ya que tener puntos exactamente en una línea recta y "ajustar" una línea puede ser exacto ... pero ese es un caso especial poco interesante que nunca sucede) .
  5. No sé :) Pero en mi humilde opinión, veo esto más como "solo porque todos los niños pueden usarlo, no todos deberían" y no lo uso en exceso a ciegas.
Mayou36
fuente
Consideraré sus puntos, pero en (3) y (4), le sugiero que mire el artículo de van der Laan, así como mi pregunta, porque el artículo dice con bastante claridad que no le sirven los modelos inexactos, y se refiere repetidamente al "modelo exacto". Entonces sí, diría que alguien realmente dijo eso. Estoy bastante de acuerdo con lo que dices sobre los modelos, así como la aplicación mecánica de los métodos; así que no creo que sea a mí a quien quieres pedir que retrocedas.
rvl
Sí a todo. Y sobre todo, quería decir que retrocediera, seguro;) Creo que, lo que no mencioné, para construir modelos teóricos (matemáticos), por supuesto que necesita modelos "exactos". Entonces, para "inventar" mejores modelos y herramientas estadísticas, necesita modelos deterministas (o exactos) como base. Incluso el aprendizaje dirigido a la masa no tiene que ser "inexacto" en este sentido, creo.
Mayou36
6

En econ, se dice mucho sobre la comprensión del "proceso de generación de datos". No estoy seguro de qué se entiende exactamente por un modelo 'exacto', pero en economía podría ser lo mismo que un modelo 'correctamente especificado'.

Ciertamente, desea saber tanto sobre el proceso que generó los datos como pueda antes de intentar un modelo, ¿verdad? Creo que la dificultad proviene de a) puede que no tengamos una pista sobre el DGP real yb) incluso si supiéramos el DGP real, podría ser intratable modelar y estimar (por muchas razones).

Entonces, hace suposiciones para simplificar las cosas y reducir los requisitos de estimación. ¿Puedes saber si tus suposiciones son exactamente correctas? Puede obtener evidencia a favor de ellos, pero en mi opinión, es difícil estar realmente seguro en algunos casos.

Tengo que filtrar todo esto en términos tanto de teoría establecida como de practicidad. Si hace una suposición consistente con una teoría y esa suposición le compra un mejor rendimiento de estimación (eficiencia, precisión, consistencia, lo que sea), entonces no veo ninguna razón para evitarla, incluso si hace que el modelo sea 'inexacto'.

Francamente, creo que el artículo está destinado a estimular a aquellos que trabajan con datos a pensar más en todo el proceso de modelado. Está claro que van der Laan hace suposiciones en su trabajo . En este ejemplo , de hecho, van der Laan parece descartar cualquier preocupación por un modelo exacto, y en su lugar utiliza una mezcla de procedimientos para maximizar el rendimiento. Esto me hace sentir más seguro de que él planteó la cita de Box con la intención de evitar que la gente lo use como un escape del difícil trabajo de comprender el problema.

Seamos realistas, el mundo está plagado de mal uso y abuso de modelos estadísticos. Las personas aplican ciegamente lo que saben hacer y, lo que es peor, otras suelen interpretar los resultados de la manera más deseable. Este artículo es un buen recordatorio para tener cuidado, pero no creo que debamos llevarlo al extremo.

Las implicaciones de lo anterior para sus preguntas:

  1. Estoy de acuerdo con otros en esta publicación que han definido un modelo como un conjunto de supuestos. Con esa definición, un modelo sin supuestos no es realmente un modelo. Incluso el análisis exploratorio de datos (es decir, sin modelo) requiere suposiciones. Por ejemplo, la mayoría de las personas supone que los datos se miden correctamente.
  2. No sé acerca de TMLE, per se, pero en economía hay muchos artículos que usan la misma filosofía subyacente de inferir sobre un efecto causal en una muestra contrafactual no observada. En esos casos, sin embargo, recibir un tratamiento no es independiente de las otras variables en el modelo (a diferencia de TMLE), por lo que los economistas hacen un amplio uso del modelado. Hay algunos estudios de caso para modelos estructurales, como este en el que los autores convencieron a una empresa para implementar su modelo y encontraron buenos resultados.
  3. Creo que todos los modelos son inexactos, pero nuevamente, este término es un poco confuso. OMI, esto está en el núcleo de la cita de Box. Replantearé mi comprensión de Box de esta manera: 'ningún modelo puede capturar la esencia exacta de la realidad, pero algunos modelos capturan una variable de interés, por lo que, en ese sentido, podría ser útil para ellos'.
  4. Abordé esto arriba. En resumen, no lo creo.
  5. No estoy seguro. Me gusta aquí mismo.
Jason
fuente
5

Para abordar el punto 3, la respuesta, obviamente, es no. Casi todas las empresas humanas se basan en un modelo simplificado en algún momento: la cocina, la construcción, las relaciones interpersonales involucran a humanos que actúan sobre algún tipo de datos + suposiciones. Nadie ha construido nunca un modelo que no pretendían utilizar. Afirmar lo contrario es pedantería ociosa.

Es mucho más interesante e ilustrativo, y útil preguntar cuándo los modelos inexactos no son útiles, por qué fallan en su utilidad y qué sucede cuando confiamos en modelos que resultan no ser útiles. Cualquier investigador, ya sea en la academia o en la industria, tiene que hacer esa pregunta con astucia y frecuencia.

No creo que la pregunta pueda responderse en general, pero los principios de propagación de errores informarán la respuesta. Los modelos inexactos se descomponen cuando el comportamiento que predicen no refleja el comportamiento en el mundo real. Comprender cómo se propagan los errores a través de un sistema puede ayudarlo a comprender cuánta precisión es necesaria para modelar el sistema.

Por ejemplo, una esfera rígida no suele ser un mal modelo para una pelota de béisbol. Pero cuando diseña el guante del receptor, este modelo le fallará y lo llevará a diseñar lo incorrecto. Sus suposiciones simplificadoras sobre la física del béisbol se propagan a través de su sistema de guantes de béisbol y lo llevan a sacar conclusiones equivocadas.

Shadowtalker
fuente
5

1) ¿Qué inferencias estadísticas útiles se pueden hacer usando un modelo que no hace suposiciones?

Un modelo es, por definición, una generalización de lo que está observando que puede ser capturado por ciertos factores causales que a su vez pueden explicar y estimar el evento que está observando. Dado que todos esos algoritmos de generalización tienen algún tipo de supuestos subyacentes. No estoy seguro de lo que queda de un modelo si no tienes suposiciones de ningún tipo. Creo que te quedan los datos originales y ningún modelo.

2) ¿Existe un estudio de caso, con datos importantes y reales en el uso de la máxima probabilidad objetivo? ¿Son estos métodos ampliamente utilizados y aceptados?

No lo sé. La máxima probabilidad se usa todo el tiempo. Los modelos Logit se basan en esos y muchos otros modelos. No difieren mucho de los OLS estándar, donde se enfoca en las reducciones de la suma del cuadrado de los residuos. No estoy seguro de cuál es la máxima probabilidad objetivo. Y, cómo difiere de la máxima probabilidad tradicional.

3) ¿Todos los modelos inexactos son realmente inútiles?

Absolutamente no. Los modelos inexactos pueden ser muy útiles. Primero, contribuyen a una mejor comprensión o explicación de un fenómeno. Eso debería contar para algo. En segundo lugar, pueden proporcionar estimaciones y pronósticos de descenso con un intervalo de confianza relevante para capturar la incertidumbre que rodea a una estimación. Eso puede proporcionar mucha información sobre lo que estás estudiando.

La cuestión de "inexacto" también plantea la cuestión de la tensión entre parsimonia y sobreajuste. Puede tener un modelo simple con 5 variables que sea "inexacto" pero que haga un buen trabajo al capturar y explicar la tendencia general de la variable dependiente. Puede tener un modelo más complejo con 10 variables que sea "más exacto" que el primero (mayor R cuadrado ajustado, menor error estándar, etc.). Sin embargo, este segundo modelo más complejo realmente puede fallar cuando lo prueba usando una muestra Hold Out. Y, en tal caso, tal vez el modelo "inexacto" realmente funcione mucho mejor en la muestra Hold Out. Esto sucede literalmente todo el tiempo en econometría y sospecho que en muchas otras ciencias sociales. Cuidado con los modelos "exactos".

4) ¿Es posible saber que tiene el modelo exacto que no sea en casos triviales?

No es posible saber que tiene el modelo exacto. Pero, es posible saber que tienes un modelo bastante bueno. Las medidas de criterios de información (AIC, BIC, SIC) pueden brindarle mucha información que le permite comparar y comparar el rendimiento relativo de varios modelos. Además, la prueba LINK también puede ayudar en ese sentido.

5) Si esto está demasiado basado en la opinión y, por lo tanto, fuera de tema, ¿dónde se puede discutir? Porque el artículo del Dr. van der Laan definitivamente necesita alguna discusión.

Creo que este es un foro tan apropiado para discutir este tema como en cualquier otro lugar. Este es un tema bastante interesante para la mayoría de nosotros.

Sympa
fuente
5

(No veo la frase "modelo exacto" en el artículo (aunque citado anteriormente))

1) ¿Qué inferencias estadísticas útiles se pueden hacer usando un modelo que no hace suposiciones?

Tienes que empezar por alguna parte. Si eso es todo lo que tienes (nada), puede ser un punto de partida.

2) ¿Existe un estudio de caso, con datos importantes y reales en el uso de la máxima probabilidad objetivo? ¿Son estos métodos ampliamente utilizados y aceptados?

Para responder a la segunda pregunta, la Probabilidad Máxima Dirigida aparece en 93/1143281 (~ .008%) de los documentos en arxiv.org. Entonces, no es probablemente una buena estimación (sin supuestos) para ese.

3) ¿Todos los modelos inexactos son realmente inútiles?

No. A veces solo te importa un aspecto de un modelo. Ese aspecto puede ser muy bueno y el resto muy inexacto.

4) ¿Es posible saber que tiene el modelo exacto que no sea en casos triviales?

El mejor modelo es el modelo que mejor responde a su pregunta. Eso puede significar dejar algo afuera. Lo que quiere evitar, lo mejor que pueda, es la violación de la suposición.

5) Hora feliz . ¡Y las bebidas son más baratas!

El uso de la palabra "exacto" me parece un poco inquietante. No es una charla muy estadística. ¿Inexactitud? ¿Variación? Gracias a Dios! Por eso estamos todos aquí. Creo que la frase "Todos los modelos están mal ..." está bien, pero solo en la compañía correcta. Los estadísticos entienden lo que significa, pero pocos otros lo hacen.

mandata
fuente
Buen punto sobre la frase "modelo exacto". Él dice cosas sobre modelos "verdaderos" y "reales" que son equivalentes, especialmente dado el contexto y el tono del artículo, pero tiene razón, la cita no es "exacta" (juego de palabras).
SQLServerSteve
Mi error. Debería haberlo citado correctamente.
rvl
Siento que tratar de lograr el modelo verdadero o real pierde el objetivo del ejercicio. Creo que lo que realmente está tratando de discutir son malos modelos.
Mandata
Sí, el artículo señala muchos puntos buenos, pero intercala muchos comentarios extremos como "Es un completo disparate decir que todos los modelos están equivocados", cuando en realidad están todos equivocados hasta cierto punto. No tiene sentido decir lo contrario. Definitivamente está tomando una posición extrema. Rvl tenía toda la razón al mencionar esto y llamarlo (no te preocupes por la cita de Ryl, lo importante es que capturaste el significado correctamente).
SQLServerSteve
4

Dicho artículo me parece un artículo honesto pero político, una polémica sincera . Como tal, contiene muchos pasajes apasionados que no tienen sentido científico, pero que, sin embargo, pueden ser efectivos para provocar conversaciones y deliberaciones útiles sobre asuntos importantes.

Hay muchas buenas respuestas aquí, así que permítanme citar algunas líneas del artículo para mostrar que el profesor Laan ciertamente no está utilizando ningún tipo de "modelo exacto" en su trabajo (y, por cierto, quién dice que el "exacto modelo "es un concepto equivalente al mecanismo de generación de datos real?)

Citas (negrita mi énfasis)

"Una vez que hayamos planteado un modelo estadístico realista , necesitamos extraer de nuestros colaboradores qué estimación y mejor representa la respuesta a su pregunta científica de interés " .

Comentario: "realista" es tan alejado de "exacto" como lo es Marte de la Tierra. Sin embargo, ambos orbitan alrededor del Sol, por lo que, para algunos propósitos, no importa qué planeta elija. Para otros fines, sí importa. También "mejor" es un concepto relativo. "Exacto" no lo es.

"Los estimadores de un estimado y definidos en un modelo estadístico honesto no pueden estimarse sensiblemente en base a modelos paramétricos ...

Comentario: la honestidad es la mejor política, pero ciertamente no se garantiza que sea "exacta". Además, la "estimación sensata" parece ser un resultado muy diluido si se usa el "modelo exacto".

" En respuesta a tener que resolver estos difíciles problemas de estimación lo mejor que pudimos , desarrollamos un enfoque estadístico general ... "

Comentario: OK Estamos "haciendo lo mejor que podemos". Como casi todos piensan en uno mismo. Pero "lo mejor que podemos" no es "exacto".

Alecos Papadopoulos
fuente
2

Voy a abordar esto desde la dirección alternativa de la filosofía, a la luz de los principios realmente útiles de la Gestión de la incertidumbre discutidos en los libros de George F. Klir sobre conjuntos difusos. No puedo dar exactitud a van der Laan, pero puedo proporcionar un caso un tanto exhaustivo de por qué su objetivo es lógicamente imposible; eso requerirá una larga discusión que haga referencia a otros campos, así que tengan paciencia conmigo.

Klir y sus coautores dividen la incertidumbre en varios subtipos, como la no especificidad (es decir, cuando tiene un conjunto desconocido de alternativas, tratadas a través de medios como la función Hartley); imprecisión en las definiciones (es decir, la "difusa" modelada y cuantificada en conjuntos difusos); conflicto o discordia en la evidencia (abordado en la Teoría de la Evidencia Dempster-Shafer); más la teoría de la probabilidad, la teoría de la posibilidad y la incertidumbre de medición, donde el objetivo es tener un alcance adecuado para capturar la evidencia relevante, mientras se minimizan los errores. Miro toda la caja de herramientas de técnicas estadísticas como medios alternativos para dividir la incertidumbre de diferentes maneras, como un cortador de galletas; los intervalos de confianza y los valores p ponen en cuarentena la incertidumbre de una manera, mientras que medidas como la entropía de Shannon la reducen desde otro ángulo. Lo que pueden ' Lo que sí, sin embargo, es eliminarlo por completo. Para lograr un "modelo exacto" del tipo que parece describir van der Laan, tendríamos que reducir todos estos tipos de incertidumbre a cero, para que no quede más partición. Un modelo verdaderamente "exacto" siempre tendría valores de probabilidad y posibilidad de 1, puntajes de no especificidad de 0 y ninguna incertidumbre en las definiciones de términos, rangos de valores o escalas de medición. No habría discordia en fuentes alternativas de evidencia. Las predicciones hechas por dicho modelo siempre serían 100 por ciento precisas; Los modelos predictivos esencialmente dividen su incertidumbre en el futuro, pero no quedaría nada para posponer. La perspectiva de incertidumbre tiene algunas implicaciones importantes: del tipo que parece describir van der Laan, necesitaríamos reducir todos estos tipos de incertidumbre a cero, para que no quede más partición. Un modelo verdaderamente "exacto" siempre tendría valores de probabilidad y posibilidad de 1, puntajes de no especificidad de 0 y ninguna incertidumbre en las definiciones de términos, rangos de valores o escalas de medición. No habría discordia en fuentes alternativas de evidencia. Las predicciones hechas por dicho modelo siempre serían 100 por ciento precisas; Los modelos predictivos esencialmente dividen su incertidumbre en el futuro, pero no quedaría nada para posponer. La perspectiva de incertidumbre tiene algunas implicaciones importantes: del tipo que parece describir van der Laan, necesitaríamos reducir todos estos tipos de incertidumbre a cero, para que no quede más partición. Un modelo verdaderamente "exacto" siempre tendría valores de probabilidad y posibilidad de 1, puntajes de no especificidad de 0 y ninguna incertidumbre en las definiciones de términos, rangos de valores o escalas de medición. No habría discordia en fuentes alternativas de evidencia. Las predicciones hechas por dicho modelo siempre serían 100 por ciento precisas; Los modelos predictivos esencialmente dividen su incertidumbre en el futuro, pero no quedaría nada para posponer. La perspectiva de incertidumbre tiene algunas implicaciones importantes: Un modelo verdaderamente "exacto" siempre tendría valores de probabilidad y posibilidad de 1, puntajes de no especificidad de 0 y ninguna incertidumbre en las definiciones de términos, rangos de valores o escalas de medición. No habría discordia en fuentes alternativas de evidencia. Las predicciones hechas por dicho modelo siempre serían 100 por ciento precisas; Los modelos predictivos esencialmente dividen su incertidumbre en el futuro, pero no quedaría nada para posponer. La perspectiva de incertidumbre tiene algunas implicaciones importantes: Un modelo verdaderamente "exacto" siempre tendría valores de probabilidad y posibilidad de 1, puntajes de no especificidad de 0 y ninguna incertidumbre en las definiciones de términos, rangos de valores o escalas de medición. No habría discordia en fuentes alternativas de evidencia. Las predicciones hechas por dicho modelo siempre serían 100 por ciento precisas; Los modelos predictivos esencialmente dividen su incertidumbre en el futuro, pero no quedaría nada para posponer. La perspectiva de incertidumbre tiene algunas implicaciones importantes: Las predicciones hechas por dicho modelo siempre serían 100 por ciento precisas; Los modelos predictivos esencialmente dividen su incertidumbre en el futuro, pero no quedaría nada para posponer. La perspectiva de incertidumbre tiene algunas implicaciones importantes: Las predicciones hechas por dicho modelo siempre serían 100 por ciento precisas; Los modelos predictivos esencialmente dividen su incertidumbre en el futuro, pero no quedaría nada para posponer. La perspectiva de incertidumbre tiene algunas implicaciones importantes:

• Este alto orden no solo es físicamente inverosímil, sino que en realidad es lógicamente imposible. Obviamente, no podemos lograr escalas de medición perfectamente continuas con grados infinitesimales, mediante la recopilación de observaciones finitas utilizando equipos científicos físicos falibles; siempre habrá cierta incertidumbre en términos de escala de medición. Del mismo modo, siempre habrá algo de confusión en torno a las definiciones que empleamos en nuestros experimentos. El futuro también es inherentemente incierto, por lo que las predicciones supuestamente perfectas de nuestros modelos "exactos" deberán tratarse como imperfectas hasta que se demuestre lo contrario, lo que llevaría una eternidad.

• Para empeorar las cosas, ninguna técnica de medición está 100 por ciento libre de errores en algún momento del proceso, ni se puede hacer lo suficientemente completa como para abarcar toda la información posiblemente conflictiva en el universo. Además, la eliminación de posibles variables de confusión y la completa independencia condicional no se puede probar a fondo sin examinar todos los demás procesos físicos que afectan el que estamos examinando, así como aquellos que afectan estos procesos secundarios, etc.

• La exactitud solo es posible en la lógica pura y su subconjunto, las matemáticas, precisamente porque las abstracciones están divorciadas de las preocupaciones del mundo real como estas fuentes de incertidumbre. Por ejemplo, por pura lógica deductiva, podemos demostrar que 2 + 2 = 4 y cualquier otra respuesta es 100 por ciento incorrecta. También podemos hacer predicciones perfectamente precisas de que siempre será igual a 4. Este tipo de precisión solo es posible en las estadísticas cuando se trata de abstracciones. La estadística es increíblemente útil cuando se aplica al mundo real, pero lo que la hace útil inyecta al menos cierto grado de incertidumbre ineludible, lo que la hace inexacta. Es un dilema inevitable.

• Además, Peter Chu plantea limitaciones adicionales en la sección de comentarios del artículo vinculado a rvl. Lo pone mejor de lo que puedo:

"Esta superficie de solución de problemas difíciles de NP está típicamente plagada de muchos óptimos locales y, en la mayoría de los casos, es computacionalmente inviable resolver el problema, es decir, encontrar la solución global óptima en general. Por lo tanto, cada modelador está utilizando algunas técnicas de modelado (heurísticas), en el mejor de los casos, encontrar soluciones óptimas locales adecuadas en el vasto espacio de soluciones de esta compleja función objetivo "

• Todo esto significa que la ciencia en sí misma no puede ser perfectamente precisa, aunque van der Laan parece hablar de ello de esta manera en su artículo; El método científico como proceso abstracto es definible con precisión, pero la imposibilidad de una medición exacta universal y perfecta significa que no puede producir modelos exactos sin incertidumbre. La ciencia es una gran herramienta, pero tiene límites.

• Empeora a partir de ahí: incluso si fuera posible medir con exactitud todas las fuerzas que actúan sobre cada quark y gluón constituyente en el universo, aún subsistirían algunas incertidumbres . Primero, cualquier predicción hecha por un modelo tan completo aún sería incierta debido a la existencia de múltiples soluciones para ecuaciones quínticas y polinomios superiores. En segundo lugar, no podemos estar completamente seguros de que el escepticismo extremo expresado en la clásica pregunta "tal vez todo esto sea un sueño o una alucinación" no sea un reflejo de la realidad, en cuyo caso todos nuestros modelos están realmente equivocados de la peor manera posible . Esto es básicamente equivalente a una interpretación ontológica más extrema de las formulaciones epistemológicas originales de filosofías como el fenomenalismo, el idealismo y el solipsismo.

• En su ortodoxia clásica de 1909GK Chesterton señaló que las versiones extremas de estas filosofías pueden ser juzgadas, pero por si conducen o no a sus creyentes a instituciones mentales; El solipsismo ontológico, por ejemplo, es en realidad un marcador de esquizofrenia, como lo son algunos de sus primos. Lo mejor que podemos lograr en este mundo es eliminar la duda razonable; dudas irracionales de este tipo inquietantes no pueden eliminarse rigurosamente, incluso en un mundo hipotético de modelos exactos, mediciones exhaustivas y sin errores. Si van der Laan pretende librarnos de dudas irracionales, entonces está jugando con fuego. Al aferrarse a la perfección, el bien finito que podemos hacer se nos escapará de las manos; Somos criaturas finitas que existen en un mundo infinito, lo que significa que el tipo de conocimiento completo y completamente seguro que Van der Laan defiende está permanentemente fuera de nuestro alcance. La única forma en que podemos alcanzar ese tipo de certeza es retirándonos de ese mundo a los confines más estrechos del perfectamente abstracto que llamamos "matemática pura". Sin embargo, esto no significa que un retiro hacia las matemáticas puras sea la solución para eliminar la incertidumbre. Este fue esencialmente el enfoque adoptado por los sucesores de Ludwig Wittgenstein (1889-1951), quien drenó su filosofía del positivismo lógico de cualquier sentido común que tuvo al rechazar la metafísica por completo y retirarse por completo a las matemáticas y el cientificismo puro, así como al escepticismo extremo, sobreespecialización y énfasis excesivo en la exactitud sobre la utilidad. En el proceso, destruyeron la disciplina de la filosofía al disolverla en una maraña de dudas sobre las definiciones y la observación del ombligo, lo que la hizo irrelevante para el resto de la academia. Esto esencialmente mató a toda la disciplina, que todavía había estado a la vanguardia del debate académico hasta principios del siglo XX, hasta el punto de que todavía atrajo la atención de los medios y algunos de sus líderes eran nombres conocidos. Se aferraron a una explicación perfecta y pulida del mundo y se les escapó de las manos, tal como lo hizo a través de los pacientes mentales de los que habló GKC. También se escapará del alcance de Van der Laan, quien ya ha refutado su propio punto, como se discute a continuación. La búsqueda de modelos que sean demasiado exactos no es simplemente imposible; puede ser peligroso, si se lo lleva al punto de la obsesión autodestructiva. La búsqueda de ese tipo de pureza rara vez termina bien; A menudo es tan autodestructivo como los germófobos que se frotan las manos con tanta furia que terminan con heridas que se infectan. Eso' S recuerda a Ícaro tratando de robar fuego del Sol: como seres finitos, solo podemos tener una comprensión finita de las cosas. Como también dice Chesterton en Ortodoxia: "Es el lógico el que busca meter los cielos en su cabeza. Y es su cabeza la que se divide".

A la luz de lo anterior, permítanme abordar algunas de las preguntas específicas enumeradas por rvl:

1) Un modelo sin suposiciones es a) no consciente de sus propias suposiciones ob) debe estar claramente separado de consideraciones que introducen incertidumbre, como errores de medición, que representan cada variable de confusión posible, escalas de medición perfectamente continuas y me gusta.

2) Todavía soy un novato cuando se trata de la estimación de máxima verosimilitud (MLE), por lo que no puedo comentar sobre la mecánica de la probabilidad objetivo, excepto para señalar lo obvio: la probabilidad es solo eso, una probabilidad, no una certeza . Para obtener un modelo exacto se requiere la eliminación completa de la incertidumbre, lo que la lógica probabilística rara vez puede hacer, si es que alguna vez lo hace.

3) Por supuesto que no. Dado que todos los modelos retienen cierta incertidumbre y, por lo tanto, son inexactos (excepto en casos de matemática pura, divorciados de las mediciones físicas del mundo real), la raza humana no habría podido hacer ningún progreso tecnológico hasta la fecha, o de hecho, cualquier otro progreso en todos. Si los modelos inexactos siempre fueran inútiles, estaríamos teniendo esta conversación en una cueva, en lugar de esta increíble hazaña de tecnología llamada Internet, todo lo cual fue posible gracias al modelado inexacto.

Irónicamente, el propio modelo de van der Laan es un ejemplo primario de inexactitud. Su propio artículo esboza un modelo de tipos de cómo debe manejarse el campo de la estadística, con el objetivo de modelos exactos; todavía no hay números adjuntos a este "modelo", no hay una medición de cuán inexactos o inútiles son ahora la mayoría de los modelos, no hay cuantificación de cuán lejos estamos de su visión, pero supongo que uno podría idear pruebas para esas cosas . Tal como está, sin embargo, su modelo es inexacto. Si no es útil, significa que su punto está equivocado; si es útil, derrota su punto principal de que los modelos inexactos no son útiles. De cualquier manera, él refuta su propio argumento.

4) Probablemente no, porque no podemos tener información completa para probar nuestro modelo, por las mismas razones que no podemos derivar un modelo exacto en primer lugar. Un modelo exacto, por definición, requeriría una previsibilidad perfecta, pero incluso si las primeras 100 pruebas resultan 100 por ciento precisas, la 101 no. Luego está el problema de las escalas de medición infinitesimales. Después de eso, ingresamos a todas las otras fuentes de incertidumbre, lo que contaminará cualquier evaluación de Ivory Tower de nuestro modelo Ivory Tower.

5) Para abordar el problema, tuve que ponerlo en el contexto más amplio de cuestiones filosóficas mucho más grandes que a menudo son controvertidas, por lo que no creo que sea posible discutir esto sin entrar en opiniones (tenga en cuenta que eso en sí mismo es otro fuente de incertidumbre) pero tienes razón, este artículo merece una respuesta. Mucho de lo que dice sobre otros temas está en el camino correcto, como la necesidad de hacer estadísticas relevantes para Big Data, pero hay un extremismo poco práctico mezclado allí que debería corregirse.

SQLServerSteve
fuente
1
¿Quiénes son estos "sucesores de Wittgenstein" que "destruyeron la disciplina de la filosofía"? La tendencia de la filosofía analítica de la posguerra (piense en los últimos Wittgenstein, Austin, Quine, Kenny, Goodman, Lewis, Davidson, Rorty) parece ser el rechazo de los principios del positivismo lógico, la rehabilitación de la metafísica y la retirada del cientificismo. (Los comentarios de Rorty sobre Nietzsche y Loyola sugieren que podría haber estado de acuerdo con el punto de Chesterton.) En cuanto a por qué Kim Kardashian es un nombre familiar en lugar de Saul Kripke, sospecho que otras tendencias han estado funcionando desde principios del siglo XX.
Scortchi - Restablece a Monica
Estos reformadores de la posguerra son desconocidos fuera de su campo precisamente porque llegaron después de que la disciplina había retrocedido en los años 20 y 30 (después de una decadencia de siglos que los positivistas lógicos extremos simplemente aceleraron) en una irrelevancia de la que nunca se ha recuperado. El daño ya estaba hecho. En los años 50, otras disciplinas académicas ya no buscaban la filosofía para el liderazgo y desde entonces la han tratado con desprecio, la pedantería fuera de contacto, quisquilloso ... Desearía que eso no fuera cierto. La imagen puede no reflejar la realidad de la filosofía, pero la mancha aún permanece.
SQLServerSteve
Me encantaría hablar de esto en el chat la próxima semana si tienes tiempo, no quiero salir por una tangente en este hilo, pero sospecho que nuestras posiciones no están tan separadas. Creo que tiene toda la razón, el movimiento que condujo a Kardashian, etc., ha estado en marcha desde principios del siglo XX, precisamente el momento en que la disciplina de la filosofía cayó en eclipse (si lo merecía es otro asunto; lo considero altamente práctico y desearía que todavía fuera muy apreciado).
SQLServerSteve
Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
Scortchi - Restablece a Monica