Trabajo principalmente con no estadísticos en campos como la medicina, las ciencias sociales y la educación.
Ya sea que esté consultando con estudiantes de posgrado, ayudando a investigadores con artículos o revisando artículos para revistas, a menudo tengo el problema de que alguien (cliente, autor, comité de tesis, editor de revista) quiere usar alguna técnica relativamente conocida cuando es completamente inapropiado o cuando existen métodos mejores pero menos conocidos. A menudo, explicaré la técnica alternativa, pero luego me dirán "todos lo hacen de la otra manera".
Me interesaría cómo otros lidian con este tipo de dificultad.
ADICIONES
@MichaelChernick sugirió que podría compartir algunas historias, así que lo haré
Actualmente estoy trabajando con una persona que está duplicando un documento anterior y agregando una variable independiente para ver si ayuda. El artículo anterior es, francamente, terrible. Trata los datos dependientes como si fueran independientes; es tremendamente sobreajustado y también hay otros problemas. Sin embargo, él (mi cliente) presentó una versión anterior como disertación y no solo obtuvo su título, sino que fue ampliamente elogiado por la investigación.
Muchas veces he tratado de convencer a la gente de que no dicotomice las variables. Esto aparece muy a menudo en medicina. Indico pacientemente que dicohotomizing (digamos) peso al nacer en bajo y normal (generalmente a 2.500 g) significa tratar a un bebé de 2.499 g como si fuera uno de 1.400 g; pero tratando al bebé de 2,501 gramos de manera bastante diferente. El clínico está de acuerdo conmigo en que esto es una tontería. Luego dice que lo haga de esa manera.
Hace mucho tiempo tuve un cliente estudiante graduado cuyo comité insistió en un análisis de conglomerados. El estudiante no entendió el método, el método no respondió preguntas útiles, pero eso es lo que el comité quería, así que eso es lo que obtuvieron.
Todo el campo de los gráficos estadísticos es uno en el que, para muchos, "así es como lo hizo el abuelo" es suficiente.
Luego hay personas que parecen simplemente presionar botones. Recuerdo una presentación (¡no de alguien a quien ayudé!) Que había tomado un cuestionario completo y factorizado lo analizó. ¡Una de las variables que incluyó fue el número de identificación!
Oy
fuente
Respuestas:
Esta es una pregunta difícil!
Primero, algunas reflexiones sobre por qué sucede esto. Trabajo en un área que hace (o al menos debería ) hacer un uso extensivo de las estadísticas, pero donde la mayoría de los profesionales no son expertos en estadística. En consecuencia, se ve mucho de "Puse un vector en la función de prueba t de Excel y este número se cayó. Por lo tanto, mi trabajo está respaldado por estadísticas".
La razón principal por la que veo que esto suceda es que la falta de conocimiento estadístico comienza en la parte superior. Si sus revisores y el comité de tesis no se mantienen al día con las técnicas estadísticas, entonces debe justificar el uso de cualquier cosa que sea "poco convencional". Por ejemplo, en una tesis, opté por usar violines en lugar de cuadros para mostrar la forma de una distribución. El uso de esta técnica requirió una extensa documentación en la tesis, así como una discusión prolongada en mi defensa donde todos los miembros del comité querían saber qué significaba esta extraña trama, a pesar de las descripciones en el texto y las referencias al material fuente. . Si hubiera utilizado un diagrama de caja (que muestra estrictamente menos información en este caso, y puede engañar fácilmente al espectador sobre la forma de una distribución si es multimodal) nadie hubiera dicho nada, y mi defensa hubiera sido más fácil.
El punto es que, en los campos no estadísticos, los profesionales enfrentan una elección difícil: podemos leer y luego usar los métodos correctos , lo que implica un montón de trabajo en el que ninguno de nuestros superiores está interesado; o simplemente podemos seguir la corriente, obtener el sello de goma en nuestros documentos y tesis, y seguir usando métodos incorrectos pero convencionales .
Ahora para responder a tu pregunta:
Creo que un buen enfoque es enfatizar las consecuencias de no usar las técnicas correctas. Esto podría implicar:
Dando un ejemplo del mundo real de cómo alguien en su campo experimentó las consecuencias de una inferencia pobre. Esto es más fácil en algunos campos que en otros. Los ejemplos donde las carreras fueron dañadas son especialmente buenas.
Explicar que hacer un análisis incorrecto puede dejarlo en una situación en la que es muy poco probable que sus resultados se transfieran al mundo real, lo que podría causar daños (por ejemplo, en mi campo, si su prototipo de sistema de inteligencia artificial parece estadísticamente mejor que la competencia, pero de hecho es igual, luego pasar los próximos 6 meses construyendo una implementación completa es una muy mala idea.
Elija técnicas que ahorren mucho tiempo a los usuarios. Suficiente tiempo para que puedan gastar lo que ahorran explicando las técnicas a los superiores.
fuente
Hablando desde la perspectiva de un psicólogo con solo una leve sofisticación estadística: cuando presente el método, también presente las herramientas. Si le cuenta a la mayoría de los investigadores en mi campo una larga historia sobre un gran método nuevo, van a pasar todo el tiempo preocupados de que la frase clave sea "y todo lo que tienen que hacer es repasar su cálculo diferencial y luego tomar un dos curso de entrenamiento de la semana! " (o "y compre un paquete de estadísticas de $ 2000" o "y adapte 5000 líneas de código Python y R"). Mientras que si hay una implementación del método disponible en el paquete de estadísticas que ya usan, o en un software gratuito con una GUI comprensible, y pueden ponerse al día en uno o dos días, podrían estar dispuestos a dar Es un intento.
Soy consciente de que este enfoque puede parecer venoso y poco científico, pero es fácil que las personas caigan cuando les preocupan las subvenciones y las publicaciones, y no ven que aprender grandes cantidades de matemáticas sea probable que les ayude a mantener sus trabajos.
fuente
Gracias por esta linda pregunta Peter. Trabajo en una institución de investigación médica y trato con médicos que investigan y publican en revistas médicas. A menudo están más interesados en publicar su artículo que "hacer las estadísticas completamente correctas". Entonces, cuando propongo una técnica poco común, señalarán un artículo similar y dirán "mira, lo hicieron de esta manera y publicaron sus resultados".
Creo que hay un problema cuando el artículo publicado es realmente malo y tiene errores. Es difícil discutir a pesar de que tengo una gran reputación. Algunos documentos tienen grandes egos y piensan que pueden aprender casi cualquier cosa. Entonces piensan que entienden las estadísticas cuando no lo hacen y pueden ser insistentes. Puede ser frustrante. Cuando está en la prueba y Wilcoxon es más apropiado, les pido que hagan una prueba de Wilk Shapiro y, si se rechaza la normalidad, incluimos ambos métodos y explicamos por qué Wilcoxon es mejor. A veces puedo convencerlos y, a menudo, dependen de mí para las estadísticas, por lo que tengo un poco más de influencia que un consultor general.
También me encontré con una situación en la que hice curvas de Kaplan-Meier para ellos y usamos la prueba de rango de registro, pero Wilcoxon dio un resultado diferente. Fue difícil para mí decidir y en tales situaciones creo que es mejor presentar ambos métodos y explicar por qué difieren. Lo mismo ocurre con el uso de intervalos de confianza de Peto vs Greenwood para la curva de supervivencia. Explicar el supuesto de riesgo de la proporción de Cox puede ser difícil y, a menudo, malinterpretan las razones de probabilidad y el riesgo relativo.
No hay una respuesta simple. Aquí tenía un jefe que era un investigador médico superior en cardiología y, a veces, los árbitros para revistas. Estaba mirando un artículo que trataba sobre el diagnóstico y usaba AUC como medida. Nunca antes había visto una curva AUC y vino a verme para ver si creía que era válida. El tenia dudas. Resultó ser apropiado y se lo expliqué lo mejor que pude.
He tratado de dar conferencias sobre bioestadística a médicos y he enseñado bioestadística en escuelas de salud pública. Intento hacerlo mejor que otros y produje un libro para el curso introductorio de ciencias de la salud en 2002 con un epidemiólogo como coautor. Wiley quiere que haga una segunda edición ahora. En 2011 publiqué un libro más conciso que traté de cubrir solo lo esencial para que los MD ocupados puedan tomarse el tiempo de leerlo y consultarlo. Así es como lo trato. Quizás puedas compartir tus historias con nosotros.
fuente
En mi carrera, realizo muchas investigaciones interdisciplinarias y me ha llevado a trabajar en estrecha colaboración con investigadores, epidemiólogos, biólogos, criminólogos y médicos especialistas en abuso de sustancias en diversos momentos. Esto típicamente involucraba el análisis de datos donde los enfoques "enlatados" habituales fallarían por varias razones (por ejemplo, alguna combinación de muestreo sesgado y datos agrupados, indexados longitudinalmente y / o espacialmente). También pasé un par de años consultando a tiempo parcial en la escuela de posgrado, donde trabajé con personas de una gran variedad de campos. Entonces, he tenido que pensar mucho en esto.
Mi experiencia es que lo más importante es explicar por qué los enfoques habituales en lata son inapropiados y apelan al deseo de la persona de hacer "buena ciencia". Ningún investigador respetable quiere publicar algo que sea descaradamente engañoso en sus conclusiones debido a un análisis estadístico inapropiado. Nunca me he encontrado con alguien que diga algo como "No me importa si el análisis es correcto o no, solo quiero publicarlo", aunque estoy seguro de que esas personas existen, mi respuesta sería terminar la relación profesional si es posible. Como estadístico, es mi reputación la que podría verse dañada si alguien que realmente sabe de lo que está hablando lee el periódico.
Admito que puede ser un desafío convencer a alguien de que un análisis en particular es inapropiado, pero creo que como estadísticos deberíamos (a) tener el conocimiento necesario para saber exactamente qué puede salir mal con el enfoque "enlatado" y (b) tener La capacidad de explicarlo es una forma razonablemente comprensible. A menos que trabajes como profesor de estadística o matemática, una parte de tu trabajo será trabajar con no estadísticos (e incluso a veces si eres un profesor de estadística / matemática).
Con respecto a (a) , si el estadístico no tiene este conocimiento, ¿por qué desalientan el enfoque fijo? Si el estadístico dice "usar modelos de efectos aleatorios" pero no puede explicar por qué asumir la independencia es un problema, ¿no son culpables de ceder ante el dogma de la misma manera que lo es el cliente? Cualquier revisor, estadístico o no, puede hacer críticas pedantes de un enfoque de modelado estadístico porque, seamos sinceros, todos los modelos están equivocados. Pero, se requiere experiencia para saber exactamente qué podría salir mal.
Con respecto a (b) , he encontrado que las representaciones gráficas de lo que podría salir mal generalmente son las que más se dan en el blanco. Ejemplos:
Otra situación común (también mencionada por Peter) está explicando por qué asumir la independencia es una mala idea. Por ejemplo, puede mostrar con una gráfica que la autocorrelación positiva típicamente producirá datos que están más "agrupados" y la varianza será subestimada por esa razón, dando una idea de por qué los ingenuos errores estándar tienden a ser demasiado pequeños. O también puede trazar los datos con la curva ajustada que supone independencia y uno puede ver visualmente cómo los grupos influyen en el ajuste (reduciendo efectivamente el tamaño de la muestra) de una manera que no está presente en datos independientes.
Hay un millón de otros ejemplos, pero estoy trabajando con restricciones de espacio / tiempo aquí :) Cuando las imágenes simplemente no funcionan por cualquier motivo (por ejemplo, mostrando por qué un enfoque tiene poca potencia), los ejemplos de simulación también son una opción que he empleado de vez en cuando.
fuente
Algunos pensamientos al azar porque este es un tema complejo ...
Creo que un gran problema es la falta de educación matemática en una variedad de disciplinas profesionales y programas graduados.
Sin una comprensión matemática de la estadística, se convierte en un montón de fórmulas para ser aplicadas según el caso.
Además, para obtener una comprensión real del asunto, los profesores deben hablar sobre los problemas originales que enfrentaban los autores originales al momento de publicar sus enfoques. Uno puede aprender más de eso que leer miles de libros sobre el tema.
Estadísticas es una caja de herramientas para resolver problemas, pero también es un arte y enfrenta los mismos problemas que cualquier otro arte.
Uno puede aprender a hacer sonidos con un instrumento. Pero al ser capaz de"tocar" un instrumento no se convierte en músico.
Sin embargo, no es raro encontrar personas que se vean a sí mismas como músicos sin haber estudiado un solo concepto de ritmo, melodía y armonía.
En la misma línea, para publicar artículos, la mayoría de las personas no necesitan saber ni comprender los conceptos detrás de una fórmula ... hoy en día los científicos solo necesitan saber qué tecla tienen que presionar y cuándo debe presionarse, punto.
Así que esto no tiene nada que ver con el "ego" de los médicos. Este es un problema subcultural, un problema más relacionado con la educación, las costumbres y los valores de la comunidad científica.
¿Qué se puede esperar en una era en la que se publican miles y miles y miles de artículos y libros inútiles para cumplir con algunos requisitos / políticas académicas? ¿En una era en la que la cantidad de documentos que uno publica es más importante que la calidad de ellos?
Los científicos convencionales ya no están preocupados por la buena ciencia. Son esclavos de los números. Están afectados (o infectados) por el error administrativo de nuestra era ...
Entonces, desde mi punto de vista, un buen curso de estadística debe incluir las bases matemáticas, históricas y filosóficas del enfoque que se está estudiando, siempre destacando los diversos caminos que uno puede tomar para resolver un solo problema.
Finalmente, si fuera profesor de estadística / probabilidad, mis primeras conferencias estarían dedicadas a problemas comobarajar cartas o lanzar una moneda . Eso pondrá a la audiencia en la posición correcta para escuchar ... probablemente.
fuente