¿Estamos exagerando la importancia de la asunción y evaluación del modelo en una era en la que los análisis suelen ser realizados por laicos?

54

En pocas palabras , cuanto más aprendo sobre estadísticas, menos confío en los trabajos publicados en mi campo; Simplemente creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien.


Soy un laico, por así decirlo. Estoy entrenado en biología pero no tengo educación formal en estadística o matemáticas. Disfruto de R y, a menudo, hago un esfuerzo por leer (y comprender ...) algunos de los fundamentos teóricos de los métodos que aplico al hacer investigación. No me sorprendería si la mayoría de las personas que realizan análisis hoy no están formadas formalmente. He publicado alrededor de 20 artículos originales, algunos de los cuales han sido aceptados por revistas y estadísticos reconocidos que han participado con frecuencia en el proceso de revisión. Mis análisis comúnmente incluyen análisis de supervivencia, regresión lineal, regresión logística, modelos mixtos. Nunca un crítico ha preguntado sobre supuestos, ajuste o evaluación del modelo.

Por lo tanto, nunca me molesté demasiado sobre los supuestos, el ajuste y la evaluación del modelo. Comienzo con una hipótesis, ejecuto la regresión y luego presento los resultados. En algunos casos hice un esfuerzo por evaluar estas cosas, pero siempre terminé con " bueno, no cumplía con todos los supuestos, pero confío en los resultados (" conocimiento de la materia ") y son plausibles, así que está bien " y Al consultar a un estadístico, siempre parecían estar de acuerdo.

Ahora, he hablado con otros estadísticos y no estadísticos (químicos, médicos y biólogos) que realizan análisis ellos mismos; parece que la gente realmente no se preocupa demasiado por todos estos supuestos y evaluaciones formales. Pero aquí en CV, hay una gran cantidad de personas que preguntan sobre los residuos, el ajuste del modelo, las formas de evaluarlo, los valores propios, los vectores y la lista continúa. Permítanme decirlo de esta manera, cuando lme4 advierte sobre grandes valores propios, dudo mucho que a muchos de sus usuarios les importe abordar eso ...

¿Vale la pena el esfuerzo extra? ¿No es probable que la mayoría de los resultados publicados no respeten estos supuestos y tal vez ni siquiera los hayan evaluado? Este es probablemente un problema cada vez mayor ya que las bases de datos crecen cada día y existe la noción de que cuanto más grandes sean los datos, menos importantes serán los supuestos y las evaluaciones.

Podría estar absolutamente equivocado, pero así es como lo he percibido.

Actualización: Cita prestada de StasK (abajo): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

Adam Robinsson
fuente
34
Quisiera advertir que cerrar esta pregunta cerraría una oportunidad importante para discutir cómo se utilizan las estadísticas en el "mundo real" fuera de los muros de los departamentos de estadística. CV es uno de los pocos lugares donde se mezclan las personas del mundo real y los estadísticos, y mantener abiertas las líneas de comunicación es una misión importante, aunque implícita, de CV. Estoy totalmente de acuerdo con aquellos que hicieron clic en "cerrar", ya que esto es muy amplio y está basado en opiniones, pero todavía espero que podamos mantener esta discusión.
StasK
55
¿El hecho de que muchas publicaciones, investigadores o incluso campos enteros traten supuestos casualmente no sugiere que no nos importa lo suficiente ? También es posible que los estadísticos y los libros de texto exageren su importancia, pero seguramente su popularidad entre los profesionales y los laicos no puede ser el criterio para eso. También las convenciones y estándares varían bastante. Algunas disciplinas probablemente se preocupan más por esto que las que conoce, mientras que otras probablemente no se preocupan mucho por cosas que son muy importantes para publicar en su campo.
Gala
66
Después de escribir un comentario en el que criticaba un estudio anterior en el que los supuestos del modelo se violaban deliberadamente y se sacaban conclusiones incorrectas, mi consejo sería no confiar en los resultados y ser lo más autocrítico posible.
Dikran Marsupial
77
"Cuanto más grandes son los datos, menos importantes son los supuestos" no se sostiene con el crecimiento real de los datos: lo que crece es (principalmente) el número de observaciones / características dependientes debido a los avances en las técnicas de medición. Por el contrario, el número de observaciones independientes, es decir, unidades experimentales o probandos, sigue siendo bastante limitado (ya que las poblaciones no aumentan con los avances técnicos ...). Desafortunadamente, solo la independencia de los datos grandes hace que los supuestos (a menudo, no siempre) sean menos importantes debido al teorema del límite central.
Horst Grünbusch
3
@ AdamRobinsson: Me gusta la conclusión que publicaste en la parte superior de tu pregunta. Sería aún más cauteloso con los artículos publicados por Big Names o respaldados por Big Institutions. Cuando veo documentos con 15 autores principales de instituciones respetadas en revistas de primer nivel, mi primer instinto es en realidad examinarlo aún más , porque existe la posibilidad de que el artículo se haya publicado debido a la influencia de los autores / instituciones. Estos documentos también tienden a tener implicaciones políticas de largo alcance. Un ejemplo de mi campo (salud pública) fue la circuncisión masculina para estudios de prevención del VIH (cont.)
Marqués de Carabas

Respuestas:

26

Estoy entrenado como estadístico, no como biólogo o médico. Pero hago bastante investigación médica (trabajando con biólogos y médicos), como parte de mi investigación he aprendido bastante sobre el tratamiento de varias enfermedades diferentes. ¿Significa esto que si un amigo me pregunta acerca de una enfermedad que he investigado, puedo simplemente recetarle un medicamento que sé que se usa comúnmente para esa enfermedad en particular? Si tuviera que hacer esto (no lo hago), entonces en muchos casos probablemente funcionaría bien (ya que un médico simplemente me habría recetado el mismo medicamento), pero siempre existe la posibilidad de que tengan una alergia / medicamento interacción / otra que un médico sabría preguntar, que no hago y terminan causando mucho más daño que bien.

Si está haciendo estadísticas sin entender lo que está asumiendo y qué podría salir mal (o consultando con un estadístico en el camino que buscará estas cosas), entonces está practicando una mala práctica estadística. La mayoría de las veces probablemente estará bien, pero ¿qué pasa con la ocasión en que una suposición importante no se cumple, pero simplemente la ignoras?

Trabajo con algunos médicos que son razonablemente estadísticamente competentes y pueden hacer gran parte de su propio análisis, pero aún así me lo pasarán. A menudo confirmo que hicieron lo correcto y que pueden hacer el análisis por sí mismos (y generalmente están agradecidos por la confirmación), pero ocasionalmente harán algo más complejo y cuando menciono un mejor enfoque, generalmente pasarán el análisis para mí o para mi equipo, o al menos llevarme a un rol más activo.

Por lo tanto, mi respuesta a su pregunta principal es "No", no estamos exagerando, más bien deberíamos enfatizar algunas cosas más para que los legos tengan más probabilidades de al menos verificar sus procedimientos / resultados con un estadístico.

Editar

Esta es una adición basada en el comentario de Adam a continuación (será un poco largo para otro comentario).

Adam, gracias por tu comentario. La respuesta corta es "No sé". Creo que se está avanzando en la mejora de la calidad estadística de los artículos, pero las cosas se han movido tan rápidamente de muchas maneras diferentes que llevará un tiempo ponerse al día y garantizar la calidad. Parte de la solución se centra en los supuestos y las consecuencias de las violaciones en los cursos de introducción de estadísticas. Es más probable que esto suceda cuando los estadísticos imparten las clases, pero debe suceder en todas las clases.

A algunas revistas les está yendo mejor, pero me gustaría ver que un revisor estadístico específico se convierta en el estándar. Hubo un artículo hace unos años (lo siento, no tengo la referencia a mano, pero fue en JAMA o en el New England Journal of Medicine) que mostró una mayor probabilidad de ser publicado (aunque no una diferencia tan grande como debería) estar) en JAMA o NEJM si un bioestadista o epidemiólogo fue uno de los coautores.

Un artículo interesante que salió recientemente es: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 que analiza algunos de los mismos problemas.

Greg Snow
fuente
1
Comparto tu punto de vista, Greg. Creo que su respuesta lo explica claramente. Pero me gustaría citarle: "[...] entonces está practicando mala práctica estadística. La mayoría de las veces probablemente estará bien". Existe el riesgo de que esta noción se esté extendiendo y que la gente lo perciba como: cualquiera puede hacer estadísticas (lo cual es fundamentalmente incorrecto si me preguntas, quién rascó un poco en la superficie de las estadísticas). La pregunta es, ¿cómo aseguramos que el trabajo publicado es correcto en términos de análisis estadísticos? Porque estoy empezando a preguntarme cuántos artículos por ahí que no pasaron un estadístico ...
Adam Robinsson
@ AdamRobinsson, vea mi adición más arriba.
Greg Snow
Esto es bastante elitista. Estoy de acuerdo en que los estadísticos profesionales pueden tener la competencia y la experiencia para realizar análisis estadísticos, pero también los científicos. De hecho, algunos de los avances innovadores en estadística provienen de científicos (por ejemplo, Fisher y Jeffrey) que practican estadísticas en el mundo real.
innisfree
También es raro decir que lo que constituye una mala práctica estadística depende no sólo de la calidad o el resultado del análisis estadístico, pero en juicios subjetivos sobre la fortaleza de los analistas comprensión de las estadísticas
innisfree
@innisfree, no entiendo tus comentarios, o tal vez no entiendes mi posición. No estoy diciendo que solo los estadísticos puedan ver las suposiciones / condiciones, solo que son importantes y que se debe consultar a un estadístico, o que los científicos no estadísticos deben aprender suficientes estadísticas para comprender los problemas más allá de simplemente ingresar los números en una fórmula / computadora. Personalmente, me gustaría ver muchas más estadísticas de menores con experiencia en medicina / ingeniería / etc., pero también con una mejor comprensión de las ideas detrás de las estadísticas.
Greg Snow
28

Bueno, sí, las suposiciones importan: si no importaran en absoluto, no necesitaríamos hacerlas, ¿verdad?

La pregunta es cuánto importan: esto varía según los procedimientos y las suposiciones y lo que desea reclamar sobre sus resultados (y también cuán tolerante es su audiencia de aproximación, incluso inexactitud, en tales afirmaciones).

Entonces, para un ejemplo de una situación en la que un supuesto es crítico, considere el supuesto de normalidad en una prueba F de varianzas; Incluso los cambios bastante modestos en la distribución pueden tener efectos bastante dramáticos en las propiedades (nivel de significación real y potencia) del procedimiento. Si afirma que está llevando a cabo una prueba al nivel del 5% cuando realmente está al nivel del 28%, en cierto sentido está haciendo lo mismo que mentir sobre cómo realizó sus experimentos. Si no cree que tales problemas estadísticos sean importantes, formule argumentos que no se basen en ellos. Por otro lado, si desea utilizar la información estadística como soporte, no puede tergiversar ese soporte.

En otros casos, los supuestos particulares pueden ser mucho menos críticos. Si está estimando el coeficiente en una regresión lineal y no le importa si es estadísticamente significativo y no le importa la eficiencia, bueno, no necesariamente importa si se cumple el supuesto de homocedasticidad. Pero si quiere decir que es estadísticamente significativo, o muestra un intervalo de confianza, sí, ciertamente puede importar.

Glen_b
fuente
2
El comentario de Glen_b está bien dicho desde el enfoque estadístico sobre la importancia de los supuestos. Sin embargo, creo que también debe tenerse en cuenta que, a los fines de la publicación, la verificación de los supuestos es un asunto ligeramente diferente, ya que la violación de los supuestos solo importa tanto como los revisores o editores se preocupan por ellos. Como ejemplo, la teoría detrás del resultado puede proporcionar un mérito suficiente para la publicación, donde se espera que los problemas con el análisis puedan resolverse en publicaciones futuras.
Jonathan Lisic
Bueno, incluso si los revisores revisan el documento, la responsabilidad con los errores recae en los autores. Por lo tanto, en su propio interés, debe comprobar ...
kjetil b halvorsen
De hecho, la responsabilidad siempre recaerá en los autores. Pero los autores de estos días son empujados por conductores inapropiados que los obligan a publicar, no rara vez de manera rápida y sucia. Me gustaría ver un proceso de revisión que exija la declaración de los supuestos estadísticos más críticos. Hoy se da por sentado que el análisis estadístico se ha realizado de acuerdo con el libro, pero creo que es más raro que común.
Adam Robinsson
3
+1 "La pregunta es cuánto importan", eso esencialmente pone todo el asunto en pocas palabras. También debo señalar que en la aplicación de la inferencia estadística, no es posible saber hasta qué punto se violan ciertos supuestos estadísticos. Solo podemos postular o considerar la solidez del análisis si lo son, y este es un aspecto esencial pero a menudo ignorado de la práctica estadística.
Heropup
18

Si bien Glen_b dio una gran respuesta , me gustaría agregar un par de centavos a eso.

Una consideración es si realmente desea obtener la verdad científica, lo que requeriría pulir sus resultados y descubrir todos los detalles de si su enfoque es defendible, en lugar de publicar en el "ah bueno, nadie verifica estos valores propios en mi disciplina de todos modos" modo. En otras palabras, tendría que preguntarle a su conciencia profesional interna si está haciendo el mejor trabajo posible. Refiriéndose a la baja alfabetización estadística y las prácticas estadísticas laxas en su disciplina no es un argumento convincente. Los revisores suelen ser, en el mejor de los casos, medio útiles si provienen de la misma disciplina con estos estándares laxos, aunque algunos de los principales medios tienen iniciativas explícitas para incorporar la experiencia estadística en el proceso de revisión.

Pero incluso si usted es un cortador de salami cínico "publicar o perecer", la otra consideración es básicamente la seguridad de su reputación de investigación. Si su modelo falla, y usted no lo sabe, se está exponiendo al riesgo de refutación por parte de aquellos que pueden venir y llevar el hacha a las grietas de los controles del modelo con instrumentos más refinados. De acuerdo, la posibilidad de eso parece ser baja, ya que la comunidad científica, a pesar de los requisitos filosóficos nominales de reputación y reproducibilidad, rara vez se dedica a intentar reproducir la investigación de otra persona. (Participé en la redacción de un par de documentos que básicamente comenzaron con: "Dios mío, ¿ realmente¿escribir eso? ", y ofreció una crítica y un refinamiento de un enfoque semi-estadístico publicado revisado por pares.) Sin embargo, las fallas de los análisis estadísticos, cuando se exponen , a menudo producen grandes y desagradables salpicaduras.

StasK
fuente
Realmente me gusta el enfoque: conciencia profesional, y creo que muchos tienen conciencia pero aún carecen del conocimiento; pero no impedirá que presenten datos como si estuvieran perfectamente hechos. Curiosamente, está citando un artículo de Science que lo explica claramente: "[...] preocupación generalizada de que los errores básicos en el análisis de datos están contribuyendo a la irreproducibilidad de muchos resultados de investigación publicados". Realmente creo que nosotros, los laicos, no respetamos realmente la dificultad de los métodos estadísticos y debería ser un problema creciente como se explicó anteriormente.
Adam Robinsson
1
En mi grupo de investigación actual, somos 15 investigadores (biólogos, médicos) y algunos de ellos son realmente productivos, pero ninguno es un estadístico. Todos los investigadores junior han instalado R o SAS y realizan cálculos, generalmente después de leer solo algunos tutoriales en Internet. Este es un gran problema.
Adam Robinsson,
44
@AdamRobinsson, el simple hecho de que hayas preguntado sobre esto en CV sí habla de tu conciencia. Un enlace más de Nature para que lo lea detenidamente, sobre un tema relacionado con la informática científica (y la falta de implementación de las mejores prácticas en el desarrollo de software por parte de los científicos que escriben su propio código C / Fortran / R) - nature.com/news/2010 /101013/full/467775a.html .
StasK
3
Como la comunidad científica, a pesar de los requisitos filosóficos nominales de reputación y reproducibilidad, rara vez se involucra en intentos de reproducir la investigación de otra persona, estoy completamente de acuerdo con esa afirmación.
Robert Smith
software-carpentry.org , "una organización voluntaria sin fines de lucro dedicada a enseñar habilidades informáticas básicas a los investigadores", tiene muy buenos tutoriales y seminarios.
denis
9

La naturaleza de las violaciones de los supuestos puede ser una pista importante para futuras investigaciones. Por ejemplo, una violación de la suposición de riesgos proporcionales en el análisis de supervivencia de Cox podría deberse a una variable con un gran efecto en la supervivencia a corto plazo pero poco efecto a largo plazo. Ese es el tipo de información inesperada pero potencialmente importante que puede obtener al examinar la validez de sus suposiciones en una prueba estadística.

Entonces, usted mismo, no solo la literatura, es un mal servicio potencial si no prueba las suposiciones subyacentes. A medida que las revistas de alta calidad comienzan a requerir una revisión estadística más sofisticada, se le pedirá que lo haga con más frecuencia. No desea estar en una posición en la que una prueba requerida por un revisor estadístico socava lo que creía que había sido un punto clave de su trabajo.

EdM
fuente
Estoy totalmente de acuerdo con este comentario, que creo que es muy importante.
Adam Robinsson
9

Contestaré desde una perspectiva intermedia. No soy estadístico, soy químico. Sin embargo, pasé los últimos 10 años especializándome en quimiometría = análisis de datos estadísticos para datos relacionados con la química.

Simplemente creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien.

Ese es probablemente el caso.


Version corta:

Ahora sobre los supuestos. En mi humilde opinión, la situación aquí es demasiado heterogénea para tratarla en una sola declaración. Es necesario comprender tanto para qué se necesita exactamente el supuesto y de qué manera es probable que la aplicación lo viole, para juzgar si la violación es inofensiva o crítica. Y esto necesita tanto las estadísticas como el conocimiento de la aplicación.
Sin embargo, como profesional que enfrenta suposiciones inalcanzables, también necesito algo más: me gustaría tener una "segunda línea de defensa" que, por ejemplo, me permita juzgar si la violación realmente está causando problemas o si es inofensiva.


Versión larga:

  • Desde un punto de vista práctico, algunos supuestos típicos casi nunca se cumplen. A veces puedo formular suposiciones razonables sobre los datos, pero a menudo los problemas se vuelven tan complicados desde un punto de vista estadístico que las soluciones aún no se conocen. A estas alturas, creo que hacer ciencia significa que llegarás a los límites de lo que se sabe probablemente no solo en tu disciplina particular sino también en otras disciplinas (aquí: estadísticas aplicadas).

  • Hay otras situaciones en las que se sabe que ciertas violaciones son generalmente inofensivas, por ejemplo, la normalidad multivariada con igual covarianza para LDA es necesaria para demostrar que LDA es óptima, pero es bien sabido que la proyección sigue una heurística que a menudo funciona bien también si Asunción no se cumple. Y qué violaciones pueden causar problemas: también se sabe que las colas pesadas en la distribución conducen a problemas con LDA en la práctica.
    Desafortunadamente, tal conocimiento rara vez se convierte en la escritura condensada de un documento, por lo que el lector no tiene idea de si los autores decidieron por su modelo después de considerar bien las propiedades de la aplicación, así como del modelo o si simplemente eligieron cualquier modelo se encontraron.

  • A veces, los enfoques prácticos (heurística) evolucionan y resultan ser muy útiles desde un punto de vista práctico, incluso si toma décadas hasta que se entiendan sus propiedades estadísticas (estoy pensando en PLS).

  • La otra cosa que sucede (y debería ocurrir más) es que las posibles consecuencias de la violación pueden ser monitoreadas (medidas), lo que permite decidir si hay un problema o no. Para la aplicación, tal vez no me importa si mi modelo es óptimo siempre que sea lo suficientemente bueno.
    En quimiometría, tenemos un enfoque bastante fuerte en la predicción. Y esto ofrece un escape muy agradable en caso de que no se cumplan los supuestos de modelado: independientemente de esos supuestos, podemos medir si el modelo funciona bien. Desde el punto de vista de un profesional, diría que se le permite hacer lo que quiera durante su modelado si lo hace e informar una honesta validación de vanguardia.
    Para el análisis quimiométrico de datos espectroscópicos, estamos en un punto en el que no observamos los residuos porque sabemos que los modelos se sobreajustan fácilmente. En cambio, observamos el rendimiento de los datos de prueba (y posiblemente la diferencia con el rendimiento de predicción de datos de entrenamiento).

  • Hay otras situaciones en las que, si bien no podemos predecir con precisión cuánta violación de esa suposición conduce a un colapso del modelo, pero podemos medir las consecuencias de violaciones graves de la suposición de forma bastante directa.
    Siguiente ejemplo: los datos del estudio con los que normalmente trato son órdenes de magnitud por debajo de los tamaños de muestra que las reglas generales recomendadas recomiendan para casos por variante (para garantizar estimaciones estables). Pero a los libros de estadísticas generalmente no les importa mucho qué hacer en la práctica si no se puede cumplir esta suposición. Tampoco cómo medir si realmente está en problemas a este respecto. Pero: tales preguntas se tratan en las disciplinas más aplicadas. Resulta que, a menudo, es bastante fácil medir directamente la estabilidad del modelo o al menos si sus predicciones son inestables (lea aquí en el CV sobre la validación de muestreo y la estabilidad del modelo). Y hay formas de estabilizar modelos inestables (por ejemplo, embolsado).

  • Como ejemplo de la "segunda línea de defensa", considere la validación de remuestreo. La suposición habitual y más fuerte es que todos los modelos sustitutos son equivalentes a un modelo entrenado en todo el conjunto de datos. Si se viola esta suposición, obtenemos el conocido sesgo pesimista. La segunda línea es que al menos los modelos sustitutos son equivalentes entre sí, por lo que podemos agrupar los resultados de la prueba.


Por último, pero no menos importante, me gustaría animar a los "científicos clientes" y a los estadísticos a hablar más entre ellos . El análisis de datos estadísticos en mi humilde opinión no es algo que se pueda hacer de una sola manera. En algún momento, cada lado necesitará adquirir algún conocimiento del otro lado. A veces ayudo a "traducir" entre estadísticos, químicos y biólogos. Un estadístico puede saber que el modelo necesita regularización. Pero para elegir, digamos, entre LASSO y una cresta, necesitan conocer las propiedades de los datos que solo el químico, el físico o el biólogo pueden conocer.

cbeleites apoya a Monica
fuente
6

Dado que el CV está poblado por estadísticos y personas que son curiosas, si no competentes, acerca de las estadísticas, no me sorprenden todas las respuestas que enfatizan la necesidad de comprender los supuestos. También estoy de acuerdo con estas respuestas en principio.

Sin embargo, al tener en cuenta la presión de publicar y el bajo estándar de integridad estadística en la actualidad, debo decir que estas respuestas son bastante ingenuas. Podemos decirle a las personas qué deben hacer durante todo el día (es decir, verificar su suposición), pero lo que harán dependerá únicamente de los incentivos institucionales. El OP mismo afirma que logra publicar 20 artículos sin comprender la suposición del modelo. Dada mi propia experiencia, no me parece difícil de creer.

Por lo tanto, quiero jugar al abogado del diablo, respondiendo directamente a la pregunta de OP. De ninguna manera es una respuesta que promueve la "buena práctica", sino que refleja cómo se practican las cosas con un toque de sátira.

¿Vale la pena el esfuerzo extra?

No, si el objetivo es publicar, no vale la pena pasar todo el tiempo entendiendo el modelo. Simplemente siga el modelo predominante en la literatura. De esa manera, 1) su trabajo pasará revisiones más fácilmente, y 2) el riesgo de estar expuesto a "incompetencia estadística" es pequeño, porque exponerlo significa exponer todo el campo, incluidas muchas personas mayores.

¿No es probable que la mayoría de los resultados publicados no respeten estos supuestos y tal vez ni siquiera los hayan evaluado? Este es probablemente un problema cada vez mayor, ya que las bases de datos crecen cada día y existe la noción de que cuanto más grandes sean los datos, menos importantes serán los supuestos y las evaluaciones.

Sí, es probable que la mayoría de los resultados publicados no sean ciertos. Cuanto más involucrado estoy en la investigación real, más creo que es probable.

Heisenberg
fuente
1
Creo que tienes algunos muy buenos puntos que no se mencionan anteriormente; a saber, la presión para publicar y la presión de las revistas para encontrar artículos para llenar la revista. Es una pesadilla para los editores no tener artículos para publicar, y los investigadores deben publicar por su mera existencia. Sin embargo, desde un punto de vista metodológico, cuanto más me involucro en la investigación, más creo que la mayoría de los hallazgos publicados son incorrectos / menos correctos / imperfectos en un grado variable (desde un punto de vista estadístico).
Adam Robinsson
4

La respuesta corta es no." Los métodos estadísticos se desarrollaron bajo conjuntos de supuestos que deben cumplirse para que los resultados sean válidos. Es lógico, entonces, que si no se cumplen los supuestos, los resultados pueden no ser válidos. Por supuesto, algunas estimaciones aún pueden ser sólidas a pesar de las violaciones de los supuestos del modelo. Por ejemplo, el logit multinomial parece funcionar bien a pesar de las violaciones de la suposición del IIA (ver la disertación de Kropko [2011] en la referencia a continuación).

Como científicos, tenemos la obligación de garantizar que los resultados que presentamos sean válidos, incluso si a las personas en el campo no les importa si se han cumplido los supuestos. Esto se debe a que la ciencia se basa en el supuesto de que los científicos harán las cosas de la manera correcta en su búsqueda de los hechos. Confiamos en que nuestros colegas verifiquen su trabajo antes de enviarlo a las revistas. Confiamos en que los árbitros revisen de manera competente un manuscrito antes de que se publique. Nosotros suponemosque tanto los investigadores como los árbitros saben lo que están haciendo, de modo que se pueda confiar en los resultados de los artículos publicados en revistas revisadas por pares. Sabemos que esto no siempre es cierto en el mundo real debido a la gran cantidad de artículos en la literatura donde terminas sacudiendo la cabeza y poniendo los ojos en blanco ante los resultados obviamente seleccionados en revistas respetables (" Jama publicó este artículo ?! ").

Entonces, no, no se puede exagerar la importancia, especialmente porque las personas confían en usted, el experto, para que haya realizado su debida diligencia. Lo menos que puede hacer es hablar sobre estas violaciones en la sección "limitaciones" de su documento para ayudar a las personas a interpretar la validez de sus resultados.

Referencia

Kropko, J. 2011. Nuevos enfoques para la elección discreta y la metodología de la sección transversal de series temporales para la investigación política (disertación). UNC-Chapel Hill, Chapel Hill, Carolina del Norte.

Marqués de carabas
fuente
Estoy de acuerdo con estos valiosos comentarios. Pero, ¿no crees que el "mayo" en "puede que no sea inválido" es la razón por la que las personas no se molestan demasiado por ellos. Creo que la mera existencia de una hipótesis puede inducir un sesgo de análisis que es relevante para este tema.
Adam Robinsson
TIL Kropko es un usuario de CV.
Restablece a Mónica
@ AdamRobinsson, creo que las personas no se molestan con ellos porque no entienden completamente cómo o por qué los resultados pueden ser inválidos. Una gran parte del problema radica en la educación estadística en un campo "aplicado". Mi propio entrenamiento es en un campo aplicado. Mis clases de econometría-lite no pretendían ser clases de econometría completas y se llamaban "métodos de investigación avanzada" o algo así. Debido a que no había requisitos previos de estadísticas, los profesionales pasarían por alto los supuestos del modelo a favor de pasar más tiempo con los comandos Stata y la interpretación de los resultados.
Marqués de Carabas
@ AdamRobinsson, La primera vez que estuve en un programa de posgrado, también fue para un campo aplicado, pero las clases fueron impartidas por bioestadísticos. Los bioestadísticos enseñaron en profundidad sobre los supuestos del modelo y los diversos controles que se supone que debemos hacer, porque algunos de los estudiantes de la clase eran estudiantes de bioestadística. Sin embargo, estaba claro que el resto de los estudiantes que estaban en estas clases no entendían por qué estábamos verificando esos supuestos, porque los profesores no comunicaban la importancia en un idioma que los estudiantes entendían.
Marqués de Carabas
1
@marquisdecarabas, de acuerdo. No entenderlos es una cuestión fundamental, obviamente. Sin embargo, a veces me pregunto si no fue debido a la inmensa cantidad de tiempo dedicado a la manipulación de datos, lo que agota la lujuria por asumir las suposiciones.
Adam Robinsson
2

Si necesita estadísticas muy avanzadas, lo más probable es que sus datos sean un desastre, como es el caso de la mayoría de las ciencias sociales, sin mencionar la psicología. En aquellos campos donde tiene buenos datos, necesita muy pocas estadísticas. La física es un muy buen ejemplo.

Considere esta cita de Galileo sobre su famoso experimento de aceleración gravitacional:

Se tomó una pieza de moldura o cuartón de madera, de unos 12 codos de largo, medio codo de ancho y tres dedos de grosor; en su borde se cortó un canal de poco más de un dedo de ancho; Después de hacer este surco muy recto, liso y pulido, y de haberlo forrado con pergamino, también lo más liso y pulido posible, rodamos una bola de bronce dura, lisa y muy redonda. Después de colocar este tablero en una posición inclinada, levantando un extremo unos uno o dos codos sobre el otro, rodamos la pelota, como estaba diciendo, a lo largo del canal, señalando, de una manera que se describirá actualmente, el tiempo requerido para hacer el descenso. Repetimos este experimento más de una vez para medir el tiempo con una precisión tal que la desviación entre dos observaciones nunca excediera la décima parte de un latido. Habiendo realizado esta operación y asegurándonos de su confiabilidad, ahora rodamos la pelota solo un cuarto del largo del canal; y habiendo medido el tiempo de su descenso, lo encontramos exactamente la mitad del primero. Luego probamos otras distancias, comparamos el tiempo para toda la longitud con el de la mitad, o con el de dos tercios, o tres cuartos, o de cualquier fracción; En tales experimentos, repetidos cientos de veces, siempre encontramos que los espacios recorridos estaban entre sí como los cuadrados de los tiempos, y esto era cierto para todas las inclinaciones del plano, es decir, del canal, a lo largo del cual rodamos pelota. También observamos que los tiempos de descenso, para varias inclinaciones del avión, tenían entre sí precisamente esa relación que, como veremos más adelante,

Para la medición del tiempo, empleamos un gran recipiente de agua colocado en una posición elevada; Al fondo de este recipiente se soldaba una tubería de diámetro pequeño que daba un chorro delgado de agua que recogimos en un vaso pequeño durante el tiempo de cada descenso, ya sea por todo el canal o por parte de su longitud; El agua así recogida se pesó, después de cada descenso, en un equilibrio muy preciso; Las diferencias y las proporciones de estos pesos nos dieron las diferencias y las proporciones de los tiempos, y esto con tal precisión que, aunque la operación se repitió muchas, muchas veces, no hubo una discrepancia apreciable en los resultados .

Tenga en cuenta el texto resaltado por mí. Esto es lo que son buenos datos. Proviene de un experimento bien planificado basado en una buena teoría. No necesita estadísticas para extraer lo que le interesa. No había estadísticas en ese momento, ni había computadoras. ¿El resultado? Una relación bastante fundamental, que aún se mantiene, y que puede ser probada en casa por un alumno de sexto grado.

Robé la cita de esta página impresionante .

ACTUALIZACIÓN: Para comentar @Silverfish, aquí hay un ejemplo de estadísticas en física experimental de partículas. Bastante básico, ¿eh? Apenas por encima del nivel de MBA. Tenga en cuenta que les encanta :) ¡Tomen eso, estadísticos!χ2

Aksakal
fuente
2
"En aquellos campos en los que tiene buenos datos, necesita muy pocas estadísticas. La física es un muy buen ejemplo". Puedo ver el punto, pero vale la pena señalar que los físicos de partículas tienen una gran cantidad de datos y han desarrollado una amplia gama de técnicas estadísticas avanzadas para analizarlos.
Silverfish
@Silverfish, ¿puedes darme un ejemplo de estadísticas avanzadas allí? Lo que he visto no me impresionó mucho. En mi opinión, un estudiante promedio de doctorado en economía conocerá más estadísticas que un físico de partículas de clase mundial. En lo que los físicos son realmente buenos es en cosas como la mecánica estadística, pero eso es muy diferente de lo que llamaríamos "estadísticas avanzadas". Estoy totalmente de acuerdo con usted en que sus conjuntos de datos son alucinantes, comenzaron grandes datos antes de que "grandes datos" se convirtieran en una palabra de moda molesta.
Aksakal
1
Tienen una visión bastante interesante sobre el "intervalo de confianza", particularmente para los parámetros que no pueden ser negativos, véase, por ejemplo, en.wikipedia.org/wiki/CLs_upper_limits_%28particle_physics%29
Silverfish
(¡Creo que podría ser injusto tomar el Día 1 de un curso introductorio como representante de todas las estadísticas que necesita para ser un físico de partículas!)
Silverfish
@ Aksakal, mi comprensión personal es que los métodos bayesianos hacen maravillas cuando hay poca incertidumbre del modelo, es decir, ciencias duras donde los modelos son lo que la ecuación de Schrodinger te da, después de una integración de 5.000 dimensiones. En economía, el enfoque bayesiano difícilmente sobrevivirá dado el enfoque de los investigadores empíricos en la inferencia que es robusta a las posibles especificaciones erróneas del modelo principal. (Soy físico por un título universitario, aunque no he hecho nada de física en más de 20 años, y un científico social cuantitativo en la línea de trabajo ahora.)
StasK
2

Esta pregunta parece ser un caso de integridad profesional.

El problema parece ser que: (a) no hay suficiente evaluación crítica del análisis estadístico por parte de laicos o (b) un caso de conocimiento común es insuficiente para identificar un error estadístico (como un error de Tipo 2)?

Sé lo suficiente sobre mi área de especialización para solicitar una opinión de expertos cuando estoy cerca del límite de esa experiencia. He visto a personas usar cosas como la prueba F (y la R al cuadrado en Excel) sin suficiente conocimiento.

En mi experiencia, los sistemas educativos, en nuestro afán por promover estadísticas, han simplificado demasiado las herramientas y subestimado los riesgos / límites. ¿Es este un tema común que otros han experimentado y explicarían la situación?

MarkR
fuente