Me gusta el libro de G van Belle sobre Reglas prácticas estadísticas y, en menor medida, Errores comunes en estadística (y cómo evitarlos) de Phillip I Good y James W. Hardin. Abordan las dificultades comunes al interpretar los resultados de los estudios experimentales y de observación y proporcionan recomendaciones prácticas para la inferencia estadística o el análisis exploratorio de datos. Pero creo que faltan algunas pautas "modernas", especialmente con el uso cada vez mayor de estadísticas computacionales y sólidas en diversos campos, o la introducción de técnicas de la comunidad de aprendizaje automático en, por ejemplo, bioestadística clínica o epidemiología genética.
Además de los trucos computacionales o las trampas comunes en la visualización de datos que podrían abordarse en otro lugar, me gustaría preguntar: ¿Cuáles son las principales reglas generales que recomendaría para un análisis de datos eficiente? ( una regla por respuesta, por favor ).
Estoy pensando en las pautas que podría proporcionar a un colega, un investigador sin una sólida formación en modelado estadístico o un estudiante en un curso intermedio o avanzado. Esto podría pertenecer a varias etapas del análisis de datos, por ejemplo, estrategias de muestreo, selección de características o construcción de modelos, comparación de modelos, estimación posterior, etc.
Mantenga su análisis reproducible. Un revisor o su jefe u otra persona eventualmente le preguntarán cómo llegó exactamente a su resultado, probablemente seis meses o más después de haber realizado el análisis. Usted no recuerda cómo se limpió los datos, lo que el análisis que hizo, por qué eligió el modelo específico que usó ... Y la reconstrucción de todo esto es un dolor.
Corolario: use un lenguaje de script de algún tipo, ponga comentarios en sus scripts de análisis y guárdelos. Lo que usa (R, SAS, Stata, lo que sea) es menos importante que tener un script completamente reproducible. Rechace los entornos en los que esto es imposible o incómodo.
fuente
No hay almuerzo gratis
Una gran parte de las fallas estadísticas se crea haciendo clic en un botón grande y brillante llamado "Calcular importancia" sin tener en cuenta su carga de supuestos ocultos.
Repetir
Incluso si se trata de una sola llamada a un generador aleatorio, uno puede tener suerte o mala suerte y llegar a conclusiones erróneas.
fuente
Una regla por respuesta ;-)
Hable con el estadístico antes de realizar el estudio. Si es posible, antes de solicitar la subvención. Ayúdelo a comprender el problema que está estudiando, obtenga su opinión sobre cómo analizar los datos que está a punto de recopilar y piense qué significa eso para el diseño de su estudio y los requisitos de datos. Tal vez las estadísticas chico / gal sugieran hacer un modelo jerárquico para dar cuenta de quién diagnosticó a los pacientes, entonces debes rastrear quién diagnosticó a quién. Suena trivial, pero es mucho mejor pensar en esto antes de recopilar datos (y no recopilar algo crucial) que después.
En una nota relacionada: haga un análisis de poder antes de comenzar. Nada es tan frustrante como no haber presupuestado un tamaño de muestra suficientemente grande. Al pensar en el tamaño del efecto que espera, recuerde el sesgo de publicación: el tamaño del efecto que encontrará probablemente será más pequeño de lo que esperaba dada la literatura (sesgada).
fuente
Una cosa que les digo a mis alumnos es que produzcan un gráfico apropiado para cada valor p. por ejemplo, un diagrama de dispersión si prueban la correlación, diagramas de caja uno al lado del otro si hacen un ANOVA unidireccional, etc.
fuente
Si está decidiendo entre dos formas de analizar sus datos, pruébelo en ambos sentidos y vea si hay alguna diferencia.
Esto es útil en muchos contextos:
Esto no debería absolver a uno de pensar en el tema, pero al menos da una idea del grado en que los resultados sustantivos son sólidos para la elección.
fuente
Cuestiona tus datos. En la era moderna de la RAM barata, a menudo trabajamos en grandes cantidades de datos. Un error de "dedo gordo" o "lugar decimal perdido" puede dominar fácilmente un análisis. Sin alguna comprobación básica de la cordura (o trazar los datos, como lo sugieren otros aquí), uno puede perder mucho tiempo. Esto también sugiere utilizar algunas técnicas básicas para 'robustez' a los valores atípicos.
fuente
Utilice un software que muestre la cadena de lógica de programación desde los datos sin procesar hasta los análisis / resultados finales. Evite software como Excel en el que un usuario puede cometer un error indetectable en una celda, de modo que solo se verifique la comprobación manual.
fuente
Siempre pregúntese "¿qué significan estos resultados y cómo se utilizarán?"
Por lo general, el propósito de usar estadísticas es ayudar a tomar decisiones bajo incertidumbre. Por lo tanto, es importante tener en mente "¿Qué decisiones se tomarán como resultado de este análisis y cómo influirá este análisis en estas decisiones?" (por ejemplo, publicar un artículo, recomendar que se utilice un nuevo método, proporcionar $ X en fondos a Y, obtener más datos, informar una cantidad estimada como E, etc.etc .....)
Si no cree que se deba tomar una decisión, uno se pregunta por qué está haciendo el análisis en primer lugar (ya que es bastante costoso hacer el análisis). Pienso en las estadísticas como una "molestia" en el sentido de que es un medio para un fin, más que un fin en sí mismo. En mi opinión, solo cuantificamos la incertidumbre para poder usarla para tomar decisiones que expliquen esta incertidumbre de manera precisa.
Creo que esta es una de las razones por las que mantener las cosas simples es una buena política en general, porque generalmente es mucho más fácil relacionar una solución simple con el mundo real (y, por lo tanto, con el entorno en el que se toma la decisión) que la solución compleja . También suele ser más fácil comprender las limitaciones de la respuesta simple. Luego pasa a las soluciones más complejas cuando comprende las limitaciones de la solución simple y cómo la solución compleja las aborda.
fuente
Puede haber una lista larga, pero por mencionar algunas: (sin un orden específico)
El valor P NO es probabilidad. Específicamente, no es la probabilidad de cometer un error de Tipo I. Del mismo modo, los IC no tienen interpretación probabilística para los datos dados. Son aplicables para experimentos repetidos.
El problema relacionado con la varianza domina el sesgo la mayor parte del tiempo en la práctica, por lo que una estimación sesgada con una pequeña varianza es mejor que una estimación imparcial con una gran varianza (la mayoría de las veces).
La adaptación del modelo es un proceso iterativo. Antes de analizar los datos, comprenda la fuente de datos y los posibles modelos que se ajustan o no a la descripción. Además, intente modelar cualquier problema de diseño en su modelo.
Utilice las herramientas de visualización, observe los datos (para detectar posibles anomalías, tendencias obvias, etc., para comprender los datos) antes de analizarlos. Use los métodos de visualización (si es posible) para ver cómo el modelo se ajusta a esos datos.
Por último, pero no menos importante, use software estadístico para lo que están hechos (para facilitar su tarea de cálculo), no son un sustituto del pensamiento humano.
fuente
Para la organización / gestión de datos, asegúrese de que cuando genere nuevas variables en el conjunto de datos (por ejemplo, calculando el índice de masa corporal a partir de la altura y el peso), las variables originales nunca se eliminen. Un enfoque no destructivo es mejor desde una perspectiva de reproducibilidad. Nunca se sabe cuándo puede ingresar incorrectamente un comando y, posteriormente, debe rehacer su generación de variables. ¡Sin las variables originales, perderá mucho tiempo!
fuente
Piense detenidamente sobre el proceso subyacente de generación de datos (DGP). Si el modelo que desea usar no refleja el DGP, necesita encontrar un nuevo modelo.
fuente
Para histogramas, una buena regla general para el número de contenedores en un histograma :
raíz cuadrada del número de puntos de datos
fuente
A pesar de los conjuntos de datos cada vez más grandes y el software más potente, los modelos de ajuste excesivo son un peligro importante para los investigadores, especialmente aquellos que aún no se han quemado por el ajuste excesivo. El ajuste excesivo significa que ha ajustado algo más complicado que sus datos y el estado del arte. Al igual que el amor o la belleza, es difícil de definir, y mucho menos definir formalmente, pero más fácil de reconocer.
Una regla general mínima es 10 puntos de datos para cada parámetro estimado para cualquier cosa como regresión clásica, y tenga cuidado con las consecuencias si lo ignora. Para otros análisis, generalmente necesita mucho más para hacer un buen trabajo, especialmente si hay categorías raras en los datos.
Incluso si puede ajustar un modelo fácilmente, debe preocuparse constantemente por lo que significa y hasta qué punto es reproducible incluso con un conjunto de datos muy similar.
fuente
fuente
Si el modelo no converge fácil y rápidamente, podría ser culpa del software. Sin embargo, es mucho más común que sus datos no sean adecuados para el modelo o que el modelo no sea adecuado para los datos. Podría ser difícil saber cuál, y los empiristas y teóricos pueden tener puntos de vista diferentes. Pero el pensamiento temático, realmente mirar los datos y pensar constantemente en la interpretación del modelo ayuda tanto como cualquier cosa. Por encima de todo, pruebe con un modelo más simple si uno complicado no converge.
No hay ganancia en forzar la convergencia o en declarar la victoria y obtener resultados después de muchas iteraciones, pero antes de que su modelo realmente haya convergido. En el mejor de los casos, te engañas si haces eso.
fuente
En las variables instrumentales, la regresión siempre verifica la importancia conjunta de sus instrumentos. La regla general de Staiger-Stock dice que un estadístico F de menos de 10 es preocupante e indica que sus instrumentos pueden ser débiles, es decir, no están suficientemente correlacionados con la variable endógena. Sin embargo, esto no implica automáticamente que una F superior a 10 garantice instrumentos fuertes. Staiger y Stock (1997) han demostrado que las técnicas de variables instrumentales como 2SLS pueden estar muy sesgadas en muestras "pequeñas" si los instrumentos solo tienen una correlación débil con la variable endógena. Su ejemplo fue el estudio de Angrist y Krueger (1991) que tuvo más de 300,000 observaciones, un hecho inquietante sobre la noción de muestras "pequeñas".
fuente
No hay criterios para elegir criterios de información.
Una vez que alguien dice algo como "El? IC indica esto, pero a menudo se sabe que da resultados incorrectos" (¿dónde? ¿Hay alguna letra que le guste?), Sabe que también tendrá que pensar en el modelo y en particular si sentido científico o práctico
Ningún álgebra puede decirte eso.
fuente
Leí esto en alguna parte (probablemente con validación cruzada) y no he podido encontrarlo en ningún lado, así que aquí va ...
Si ha descubierto un resultado interesante, probablemente sea incorrecto.
Es muy fácil emocionarse ante la perspectiva de un asombroso valor p o un error de validación cruzada casi perfecto. Personalmente, he presentado resultados asombrosos (falsos) a colegas solo para tener que retractarlos. Muy a menudo, si parece demasiado bueno para ser verdad ...
'mancha cierto. 'Mancha cierto en absoluto.
fuente
Trate de ser valiente en lugar de virtuoso Es decir, no permita que pequeñas señales de no normalidad, independencia o no linealidad, etc. bloqueen su camino si tales indicaciones deben ser ignoradas para que los datos hablen alto y claro . - En danés, 'dristig' vs. 'dydig' son los adjetivos.
fuente
Al analizar datos longitudinales, asegúrese de verificar que las variables se codifiquen de la misma manera en cada período de tiempo.
Mientras escribía mi disertación, que implicaba el análisis de datos secundarios, hubo una semana de desconcierto total de un cambio de 1 unidad en los puntajes de depresión promedio en un promedio estable por año: resultó ser uno de los años en mi conjunto de datos, elementos de escala para un instrumento validado se habían codificado 1–4 en lugar de 0–3.
fuente
Su hipótesis debe conducir su elección de modelo, no al revés.
Parafraseando a Maslow, si eres un martillo, todo parece un clavo. Los modelos específicos vienen con anteojeras y suposiciones sobre el mundo incorporadas: por ejemplo, los modelos no dinámicos ahogan la retroalimentación del resultado del tratamiento.
fuente
Use la simulación para verificar dónde la estructura de su modelo puede estar creando "resultados" que son simplemente artefactos matemáticos de los supuestos de su modelo
Realice su análisis en variables aleatorizadas o en variables simuladas que se sabe que no están correlacionadas entre sí. Haga esto muchas veces y contraste las estimaciones puntuales promediadas (y los intervalos de confianza o creíbles) con los resultados que obtiene en los datos reales: ¿son tan diferentes?
fuente
Soy un analista de datos en lugar de un estadístico, pero estas son mis sugerencias.
1) Antes de analizar los datos, asegúrese de que las suposiciones de su método sean correctas. Una vez que vea los resultados, puede ser difícil olvidarlos incluso después de que solucione los problemas y los resultados cambien.
2) Ayuda a conocer sus datos. Ejecuté series temporales y obtuve un resultado que tenía poco sentido dados los datos de los últimos años. Revisé los métodos a la luz de eso y descubrí que el promedio de los modelos en el método estaba distorsionando los resultados durante un período (y se había producido una ruptura estructural).
3) Tenga cuidado con las reglas generales. Reflejan las experiencias de investigadores individuales a partir de sus propios datos y si su campo es muy diferente al suyo, sus conclusiones pueden no ser correctas para sus datos. Además, y esto fue un shock para mí, los estadísticos a menudo no están de acuerdo en los puntos clave.
4) Intente analizar los datos con diferentes métodos y ver si los resultados son similares. Comprenda que ningún método es perfecto y tenga cuidado de verificar cuando pueda por violaciones de los supuestos.
fuente