En pocas palabras , cuanto más aprendo sobre estadísticas, menos confío en los trabajos publicados en mi campo; Simplemente creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien.
Soy un laico, por así decirlo. Estoy entrenado en biología pero no tengo educación formal en estadística o matemáticas. Disfruto de R y, a menudo, hago un esfuerzo por leer (y comprender ...) algunos de los fundamentos teóricos de los métodos que aplico al hacer investigación. No me sorprendería si la mayoría de las personas que realizan análisis hoy no están formadas formalmente. He publicado alrededor de 20 artículos originales, algunos de los cuales han sido aceptados por revistas y estadísticos reconocidos que han participado con frecuencia en el proceso de revisión. Mis análisis comúnmente incluyen análisis de supervivencia, regresión lineal, regresión logística, modelos mixtos. Nunca un crítico ha preguntado sobre supuestos, ajuste o evaluación del modelo.
Por lo tanto, nunca me molesté demasiado sobre los supuestos, el ajuste y la evaluación del modelo. Comienzo con una hipótesis, ejecuto la regresión y luego presento los resultados. En algunos casos hice un esfuerzo por evaluar estas cosas, pero siempre terminé con " bueno, no cumplía con todos los supuestos, pero confío en los resultados (" conocimiento de la materia ") y son plausibles, así que está bien " y Al consultar a un estadístico, siempre parecían estar de acuerdo.
Ahora, he hablado con otros estadísticos y no estadísticos (químicos, médicos y biólogos) que realizan análisis ellos mismos; parece que la gente realmente no se preocupa demasiado por todos estos supuestos y evaluaciones formales. Pero aquí en CV, hay una gran cantidad de personas que preguntan sobre los residuos, el ajuste del modelo, las formas de evaluarlo, los valores propios, los vectores y la lista continúa. Permítanme decirlo de esta manera, cuando lme4 advierte sobre grandes valores propios, dudo mucho que a muchos de sus usuarios les importe abordar eso ...
¿Vale la pena el esfuerzo extra? ¿No es probable que la mayoría de los resultados publicados no respeten estos supuestos y tal vez ni siquiera los hayan evaluado? Este es probablemente un problema cada vez mayor ya que las bases de datos crecen cada día y existe la noción de que cuanto más grandes sean los datos, menos importantes serán los supuestos y las evaluaciones.
Podría estar absolutamente equivocado, pero así es como lo he percibido.
Actualización: Cita prestada de StasK (abajo): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509
fuente
Respuestas:
Estoy entrenado como estadístico, no como biólogo o médico. Pero hago bastante investigación médica (trabajando con biólogos y médicos), como parte de mi investigación he aprendido bastante sobre el tratamiento de varias enfermedades diferentes. ¿Significa esto que si un amigo me pregunta acerca de una enfermedad que he investigado, puedo simplemente recetarle un medicamento que sé que se usa comúnmente para esa enfermedad en particular? Si tuviera que hacer esto (no lo hago), entonces en muchos casos probablemente funcionaría bien (ya que un médico simplemente me habría recetado el mismo medicamento), pero siempre existe la posibilidad de que tengan una alergia / medicamento interacción / otra que un médico sabría preguntar, que no hago y terminan causando mucho más daño que bien.
Si está haciendo estadísticas sin entender lo que está asumiendo y qué podría salir mal (o consultando con un estadístico en el camino que buscará estas cosas), entonces está practicando una mala práctica estadística. La mayoría de las veces probablemente estará bien, pero ¿qué pasa con la ocasión en que una suposición importante no se cumple, pero simplemente la ignoras?
Trabajo con algunos médicos que son razonablemente estadísticamente competentes y pueden hacer gran parte de su propio análisis, pero aún así me lo pasarán. A menudo confirmo que hicieron lo correcto y que pueden hacer el análisis por sí mismos (y generalmente están agradecidos por la confirmación), pero ocasionalmente harán algo más complejo y cuando menciono un mejor enfoque, generalmente pasarán el análisis para mí o para mi equipo, o al menos llevarme a un rol más activo.
Por lo tanto, mi respuesta a su pregunta principal es "No", no estamos exagerando, más bien deberíamos enfatizar algunas cosas más para que los legos tengan más probabilidades de al menos verificar sus procedimientos / resultados con un estadístico.
Editar
Esta es una adición basada en el comentario de Adam a continuación (será un poco largo para otro comentario).
Adam, gracias por tu comentario. La respuesta corta es "No sé". Creo que se está avanzando en la mejora de la calidad estadística de los artículos, pero las cosas se han movido tan rápidamente de muchas maneras diferentes que llevará un tiempo ponerse al día y garantizar la calidad. Parte de la solución se centra en los supuestos y las consecuencias de las violaciones en los cursos de introducción de estadísticas. Es más probable que esto suceda cuando los estadísticos imparten las clases, pero debe suceder en todas las clases.
A algunas revistas les está yendo mejor, pero me gustaría ver que un revisor estadístico específico se convierta en el estándar. Hubo un artículo hace unos años (lo siento, no tengo la referencia a mano, pero fue en JAMA o en el New England Journal of Medicine) que mostró una mayor probabilidad de ser publicado (aunque no una diferencia tan grande como debería) estar) en JAMA o NEJM si un bioestadista o epidemiólogo fue uno de los coautores.
Un artículo interesante que salió recientemente es: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 que analiza algunos de los mismos problemas.
fuente
Bueno, sí, las suposiciones importan: si no importaran en absoluto, no necesitaríamos hacerlas, ¿verdad?
La pregunta es cuánto importan: esto varía según los procedimientos y las suposiciones y lo que desea reclamar sobre sus resultados (y también cuán tolerante es su audiencia de aproximación, incluso inexactitud, en tales afirmaciones).
Entonces, para un ejemplo de una situación en la que un supuesto es crítico, considere el supuesto de normalidad en una prueba F de varianzas; Incluso los cambios bastante modestos en la distribución pueden tener efectos bastante dramáticos en las propiedades (nivel de significación real y potencia) del procedimiento. Si afirma que está llevando a cabo una prueba al nivel del 5% cuando realmente está al nivel del 28%, en cierto sentido está haciendo lo mismo que mentir sobre cómo realizó sus experimentos. Si no cree que tales problemas estadísticos sean importantes, formule argumentos que no se basen en ellos. Por otro lado, si desea utilizar la información estadística como soporte, no puede tergiversar ese soporte.
En otros casos, los supuestos particulares pueden ser mucho menos críticos. Si está estimando el coeficiente en una regresión lineal y no le importa si es estadísticamente significativo y no le importa la eficiencia, bueno, no necesariamente importa si se cumple el supuesto de homocedasticidad. Pero si quiere decir que es estadísticamente significativo, o muestra un intervalo de confianza, sí, ciertamente puede importar.
fuente
Si bien Glen_b dio una gran respuesta , me gustaría agregar un par de centavos a eso.
Una consideración es si realmente desea obtener la verdad científica, lo que requeriría pulir sus resultados y descubrir todos los detalles de si su enfoque es defendible, en lugar de publicar en el "ah bueno, nadie verifica estos valores propios en mi disciplina de todos modos" modo. En otras palabras, tendría que preguntarle a su conciencia profesional interna si está haciendo el mejor trabajo posible. Refiriéndose a la baja alfabetización estadística y las prácticas estadísticas laxas en su disciplina no es un argumento convincente. Los revisores suelen ser, en el mejor de los casos, medio útiles si provienen de la misma disciplina con estos estándares laxos, aunque algunos de los principales medios tienen iniciativas explícitas para incorporar la experiencia estadística en el proceso de revisión.
Pero incluso si usted es un cortador de salami cínico "publicar o perecer", la otra consideración es básicamente la seguridad de su reputación de investigación. Si su modelo falla, y usted no lo sabe, se está exponiendo al riesgo de refutación por parte de aquellos que pueden venir y llevar el hacha a las grietas de los controles del modelo con instrumentos más refinados. De acuerdo, la posibilidad de eso parece ser baja, ya que la comunidad científica, a pesar de los requisitos filosóficos nominales de reputación y reproducibilidad, rara vez se dedica a intentar reproducir la investigación de otra persona. (Participé en la redacción de un par de documentos que básicamente comenzaron con: "Dios mío, ¿ realmente¿escribir eso? ", y ofreció una crítica y un refinamiento de un enfoque semi-estadístico publicado revisado por pares.) Sin embargo, las fallas de los análisis estadísticos, cuando se exponen , a menudo producen grandes y desagradables salpicaduras.
fuente
La naturaleza de las violaciones de los supuestos puede ser una pista importante para futuras investigaciones. Por ejemplo, una violación de la suposición de riesgos proporcionales en el análisis de supervivencia de Cox podría deberse a una variable con un gran efecto en la supervivencia a corto plazo pero poco efecto a largo plazo. Ese es el tipo de información inesperada pero potencialmente importante que puede obtener al examinar la validez de sus suposiciones en una prueba estadística.
Entonces, usted mismo, no solo la literatura, es un mal servicio potencial si no prueba las suposiciones subyacentes. A medida que las revistas de alta calidad comienzan a requerir una revisión estadística más sofisticada, se le pedirá que lo haga con más frecuencia. No desea estar en una posición en la que una prueba requerida por un revisor estadístico socava lo que creía que había sido un punto clave de su trabajo.
fuente
Contestaré desde una perspectiva intermedia. No soy estadístico, soy químico. Sin embargo, pasé los últimos 10 años especializándome en quimiometría = análisis de datos estadísticos para datos relacionados con la química.
Ese es probablemente el caso.
Version corta:
Ahora sobre los supuestos. En mi humilde opinión, la situación aquí es demasiado heterogénea para tratarla en una sola declaración. Es necesario comprender tanto para qué se necesita exactamente el supuesto y de qué manera es probable que la aplicación lo viole, para juzgar si la violación es inofensiva o crítica. Y esto necesita tanto las estadísticas como el conocimiento de la aplicación.
Sin embargo, como profesional que enfrenta suposiciones inalcanzables, también necesito algo más: me gustaría tener una "segunda línea de defensa" que, por ejemplo, me permita juzgar si la violación realmente está causando problemas o si es inofensiva.
Versión larga:
Desde un punto de vista práctico, algunos supuestos típicos casi nunca se cumplen. A veces puedo formular suposiciones razonables sobre los datos, pero a menudo los problemas se vuelven tan complicados desde un punto de vista estadístico que las soluciones aún no se conocen. A estas alturas, creo que hacer ciencia significa que llegarás a los límites de lo que se sabe probablemente no solo en tu disciplina particular sino también en otras disciplinas (aquí: estadísticas aplicadas).
Hay otras situaciones en las que se sabe que ciertas violaciones son generalmente inofensivas, por ejemplo, la normalidad multivariada con igual covarianza para LDA es necesaria para demostrar que LDA es óptima, pero es bien sabido que la proyección sigue una heurística que a menudo funciona bien también si Asunción no se cumple. Y qué violaciones pueden causar problemas: también se sabe que las colas pesadas en la distribución conducen a problemas con LDA en la práctica.
Desafortunadamente, tal conocimiento rara vez se convierte en la escritura condensada de un documento, por lo que el lector no tiene idea de si los autores decidieron por su modelo después de considerar bien las propiedades de la aplicación, así como del modelo o si simplemente eligieron cualquier modelo se encontraron.
A veces, los enfoques prácticos (heurística) evolucionan y resultan ser muy útiles desde un punto de vista práctico, incluso si toma décadas hasta que se entiendan sus propiedades estadísticas (estoy pensando en PLS).
La otra cosa que sucede (y debería ocurrir más) es que las posibles consecuencias de la violación pueden ser monitoreadas (medidas), lo que permite decidir si hay un problema o no. Para la aplicación, tal vez no me importa si mi modelo es óptimo siempre que sea lo suficientemente bueno.
En quimiometría, tenemos un enfoque bastante fuerte en la predicción. Y esto ofrece un escape muy agradable en caso de que no se cumplan los supuestos de modelado: independientemente de esos supuestos, podemos medir si el modelo funciona bien. Desde el punto de vista de un profesional, diría que se le permite hacer lo que quiera durante su modelado si lo hace e informar una honesta validación de vanguardia.
Para el análisis quimiométrico de datos espectroscópicos, estamos en un punto en el que no observamos los residuos porque sabemos que los modelos se sobreajustan fácilmente. En cambio, observamos el rendimiento de los datos de prueba (y posiblemente la diferencia con el rendimiento de predicción de datos de entrenamiento).
Hay otras situaciones en las que, si bien no podemos predecir con precisión cuánta violación de esa suposición conduce a un colapso del modelo, pero podemos medir las consecuencias de violaciones graves de la suposición de forma bastante directa.
Siguiente ejemplo: los datos del estudio con los que normalmente trato son órdenes de magnitud por debajo de los tamaños de muestra que las reglas generales recomendadas recomiendan para casos por variante (para garantizar estimaciones estables). Pero a los libros de estadísticas generalmente no les importa mucho qué hacer en la práctica si no se puede cumplir esta suposición. Tampoco cómo medir si realmente está en problemas a este respecto. Pero: tales preguntas se tratan en las disciplinas más aplicadas. Resulta que, a menudo, es bastante fácil medir directamente la estabilidad del modelo o al menos si sus predicciones son inestables (lea aquí en el CV sobre la validación de muestreo y la estabilidad del modelo). Y hay formas de estabilizar modelos inestables (por ejemplo, embolsado).
Como ejemplo de la "segunda línea de defensa", considere la validación de remuestreo. La suposición habitual y más fuerte es que todos los modelos sustitutos son equivalentes a un modelo entrenado en todo el conjunto de datos. Si se viola esta suposición, obtenemos el conocido sesgo pesimista. La segunda línea es que al menos los modelos sustitutos son equivalentes entre sí, por lo que podemos agrupar los resultados de la prueba.
Por último, pero no menos importante, me gustaría animar a los "científicos clientes" y a los estadísticos a hablar más entre ellos . El análisis de datos estadísticos en mi humilde opinión no es algo que se pueda hacer de una sola manera. En algún momento, cada lado necesitará adquirir algún conocimiento del otro lado. A veces ayudo a "traducir" entre estadísticos, químicos y biólogos. Un estadístico puede saber que el modelo necesita regularización. Pero para elegir, digamos, entre LASSO y una cresta, necesitan conocer las propiedades de los datos que solo el químico, el físico o el biólogo pueden conocer.
fuente
Dado que el CV está poblado por estadísticos y personas que son curiosas, si no competentes, acerca de las estadísticas, no me sorprenden todas las respuestas que enfatizan la necesidad de comprender los supuestos. También estoy de acuerdo con estas respuestas en principio.
Sin embargo, al tener en cuenta la presión de publicar y el bajo estándar de integridad estadística en la actualidad, debo decir que estas respuestas son bastante ingenuas. Podemos decirle a las personas qué deben hacer durante todo el día (es decir, verificar su suposición), pero lo que harán dependerá únicamente de los incentivos institucionales. El OP mismo afirma que logra publicar 20 artículos sin comprender la suposición del modelo. Dada mi propia experiencia, no me parece difícil de creer.
Por lo tanto, quiero jugar al abogado del diablo, respondiendo directamente a la pregunta de OP. De ninguna manera es una respuesta que promueve la "buena práctica", sino que refleja cómo se practican las cosas con un toque de sátira.
No, si el objetivo es publicar, no vale la pena pasar todo el tiempo entendiendo el modelo. Simplemente siga el modelo predominante en la literatura. De esa manera, 1) su trabajo pasará revisiones más fácilmente, y 2) el riesgo de estar expuesto a "incompetencia estadística" es pequeño, porque exponerlo significa exponer todo el campo, incluidas muchas personas mayores.
Sí, es probable que la mayoría de los resultados publicados no sean ciertos. Cuanto más involucrado estoy en la investigación real, más creo que es probable.
fuente
La respuesta corta es no." Los métodos estadísticos se desarrollaron bajo conjuntos de supuestos que deben cumplirse para que los resultados sean válidos. Es lógico, entonces, que si no se cumplen los supuestos, los resultados pueden no ser válidos. Por supuesto, algunas estimaciones aún pueden ser sólidas a pesar de las violaciones de los supuestos del modelo. Por ejemplo, el logit multinomial parece funcionar bien a pesar de las violaciones de la suposición del IIA (ver la disertación de Kropko [2011] en la referencia a continuación).
Como científicos, tenemos la obligación de garantizar que los resultados que presentamos sean válidos, incluso si a las personas en el campo no les importa si se han cumplido los supuestos. Esto se debe a que la ciencia se basa en el supuesto de que los científicos harán las cosas de la manera correcta en su búsqueda de los hechos. Confiamos en que nuestros colegas verifiquen su trabajo antes de enviarlo a las revistas. Confiamos en que los árbitros revisen de manera competente un manuscrito antes de que se publique. Nosotros suponemosque tanto los investigadores como los árbitros saben lo que están haciendo, de modo que se pueda confiar en los resultados de los artículos publicados en revistas revisadas por pares. Sabemos que esto no siempre es cierto en el mundo real debido a la gran cantidad de artículos en la literatura donde terminas sacudiendo la cabeza y poniendo los ojos en blanco ante los resultados obviamente seleccionados en revistas respetables (" Jama publicó este artículo ?! ").
Entonces, no, no se puede exagerar la importancia, especialmente porque las personas confían en usted, el experto, para que haya realizado su debida diligencia. Lo menos que puede hacer es hablar sobre estas violaciones en la sección "limitaciones" de su documento para ayudar a las personas a interpretar la validez de sus resultados.
Referencia
Kropko, J. 2011. Nuevos enfoques para la elección discreta y la metodología de la sección transversal de series temporales para la investigación política (disertación). UNC-Chapel Hill, Chapel Hill, Carolina del Norte.
fuente
Si necesita estadísticas muy avanzadas, lo más probable es que sus datos sean un desastre, como es el caso de la mayoría de las ciencias sociales, sin mencionar la psicología. En aquellos campos donde tiene buenos datos, necesita muy pocas estadísticas. La física es un muy buen ejemplo.
Considere esta cita de Galileo sobre su famoso experimento de aceleración gravitacional:
Tenga en cuenta el texto resaltado por mí. Esto es lo que son buenos datos. Proviene de un experimento bien planificado basado en una buena teoría. No necesita estadísticas para extraer lo que le interesa. No había estadísticas en ese momento, ni había computadoras. ¿El resultado? Una relación bastante fundamental, que aún se mantiene, y que puede ser probada en casa por un alumno de sexto grado.
Robé la cita de esta página impresionante .
ACTUALIZACIÓN: Para comentar @Silverfish, aquí hay un ejemplo de estadísticas en física experimental de partículas. Bastante básico, ¿eh? Apenas por encima del nivel de MBA. Tenga en cuenta que les encanta :) ¡Tomen eso, estadísticos!χ2
fuente
Esta pregunta parece ser un caso de integridad profesional.
El problema parece ser que: (a) no hay suficiente evaluación crítica del análisis estadístico por parte de laicos o (b) un caso de conocimiento común es insuficiente para identificar un error estadístico (como un error de Tipo 2)?
Sé lo suficiente sobre mi área de especialización para solicitar una opinión de expertos cuando estoy cerca del límite de esa experiencia. He visto a personas usar cosas como la prueba F (y la R al cuadrado en Excel) sin suficiente conocimiento.
En mi experiencia, los sistemas educativos, en nuestro afán por promover estadísticas, han simplificado demasiado las herramientas y subestimado los riesgos / límites. ¿Es este un tema común que otros han experimentado y explicarían la situación?
fuente