Estadísticas y Big Data

23

Encontrar el PDF dado el CDF

¿Cómo puedo encontrar el PDF (función de densidad de probabilidad) de una distribución dada la CDF (función de distribución

distributions pdf cdf

23

Series temporales para datos de recuento, con recuentos <20

Recientemente comencé a trabajar para una clínica de tuberculosis. Nos reunimos periódicamente para analizar la cantidad de casos de TB que estamos tratando actualmente, la cantidad de pruebas administradas, etc. Me gustaría comenzar a modelar estos conteos para que no solo estemos adivinando si...

r time-series poisson-distribution count-data epidemiology

23

¿Cómo funciona el impulso?

¿Cuál es la forma más fácil de entender el impulso? ¿Por qué no aumenta los clasificadores muy débiles "hasta el infinito"

machine-learning boosting

23

Modelos de estadísticas espaciales: CAR vs SAR

¿Cuándo preferiría usar un modelo autorregresivo condicional sobre un modelo autorregresivo simultáneo al modelar datos aéreos georreferenciados

modeling spatial

23

Análisis forense estadístico: Benford y más allá

¿Qué métodos generales existen para detectar fraudes, anomalías, falsificaciones, etc. en trabajos científicos producidos por un tercero? (El reciente asunto de Marc Hauser me motivó a preguntar esto ). Por lo general, por fraude electoral y contable, se cita alguna variante de la Ley de Benford ....

meta-analysis fraud

23

¿Cuál es la diferencia entre PCA y PCA asintótica?

En dos artículos en 1986 y 1988 , Connor y Korajczyk propusieron un enfoque para modelar los rendimientos de los activos. Dado que estas series de tiempo generalmente tienen más activos que las observaciones de períodos de tiempo, propusieron realizar un PCA en covarianzas transversales de...

pca econometrics

23

Agrupación de variables basadas en correlaciones entre ellas

Preguntas: Tengo una gran matriz de correlación. En lugar de agrupar correlaciones individuales, quiero agrupar variables basadas en sus correlaciones entre sí, es decir, si la variable A y la variable B tienen correlaciones similares a las variables C a Z, entonces A y B deberían ser parte del...

correlation clustering correlation-matrix

23

¿Qué tiene de malo este algoritmo de barajado "ingenuo"?

Este es un seguimiento de una pregunta de Stackoverflow acerca de mezclar aleatoriamente una matriz . Existen algoritmos establecidos (como el Shuffle de Knuth-Fisher-Yates ) que uno debería usar para barajar una matriz, en lugar de confiar en implementaciones ad-hoc "ingenuas". Ahora estoy...

combinatorics randomness

23

¿Alternativas a los árboles de clasificación, con un mejor rendimiento predictivo (p. Ej .: CV)?

Estoy buscando una alternativa a los árboles de clasificación que pueda generar un mejor poder predictivo. Los datos que estoy tratando tienen factores para las variables explicativas y explicadas. Recuerdo haber encontrado bosques aleatorios y redes neuronales en este contexto, aunque nunca los...

r machine-learning classification cart

23

¿Por qué desglosar el denominador en el Teorema de Bayes?

(Soy un novato en las estadísticas. Soy matemático y programador y estoy tratando de construir algo así como un ingenuo filtro de spam bayesiano). He notado en muchos lugares que las personas tienden a descomponer el denominador en la ecuación del Teorema de Bayes. Entonces, en lugar de...

bayesian

23

Tratar con regresores correlacionados

En una regresión lineal múltiple con regresores altamente correlacionados, ¿cuál es la mejor estrategia para usar? ¿Es un enfoque legítimo agregar el producto de todos los regresores

regression multicollinearity

23

Código R para pronósticos de series de tiempo usando el filtro Kalman

¿Alguien tiene un buen ejemplo para el pronóstico / suavizado de series temporales con el filtro de Kalman en

r time-series kalman-filter

23

Estimación de una distribución basada en tres percentiles.

¿Qué métodos puedo usar para inferir una distribución si solo conozco tres percentiles? Por ejemplo, sé que en un determinado conjunto de datos, el quinto percentil es 8.135, el percentil 50 es 11.259 y el percentil 95 es 23.611. Quiero poder pasar de cualquier otro número a su percentil. No son...

r regression quantiles

23

Establecer nudos en splines cúbicos naturales en R

Tengo datos con muchas funciones correlacionadas, y quiero comenzar reduciendo las funciones con una función de base suave, antes de ejecutar un LDA. Estoy tratando de usar splines cúbicas naturales en el splinespaquete con la nsfunción. ¿Cómo hago para asignar los nudos? Aquí está el código R...

r splines

23

Bibliotecas C ++ para computación estadística

Tengo un algoritmo MCMC particular que me gustaría portar a C / C ++. Gran parte del cálculo costoso ya está en C a través de Cython, pero quiero tener todo el muestreador escrito en un lenguaje compilado para poder escribir envoltorios para Python / R / Matlab / lo que sea. Después de hurgar, me...

mcmc software c++ computing

23

¿Cómo calcular el valor p de los parámetros para el modelo ARIMA en R?

Al hacer una investigación de series temporales en R, descubrí que arima solo proporciona los valores de los coeficientes y sus errores estándar del modelo ajustado. Sin embargo, también quiero obtener el valor p de los coeficientes. No encontré ninguna función que proporcione la importancia de...

r time-series chi-squared arima parametric

23

¿Cuáles son formas eficientes de organizar el código R y la salida? [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado el año pasado . Estoy buscando información sobre cómo otros...

r project-management

23

Sitios para competiciones de modelado predictivo

Participo en competencias de modelado predictivo en Kaggle , TunedIt y CrowdAnalytix . Creo que estos sitios son una buena forma de "hacer ejercicio" para estadísticas / aprendizaje automático. ¿Hay otros sitios que debería conocer? ¿Cómo se sienten con respecto a las competiciones donde el...

machine-learning predictive-models

23

Generar datos correlacionados al azar entre una variable binaria y una variable continua.

Quiero generar dos variables. Una es la variable de resultado binaria (digamos éxito / fracaso) y la otra es la edad en años. Quiero que la edad se correlacione positivamente con el éxito. Por ejemplo, debería haber más éxitos en los segmentos de mayor edad que en los menores. Idealmente, debería...

correlation random-variable random-generation binary-data

23

Como revisor, ¿puedo justificar que los datos y el código estén disponibles incluso si la revista no lo hace?

Como la ciencia debe ser reproducible, por definición, existe un reconocimiento cada vez mayor de que los datos y el código son un componente esencial de la reproducción, como se discutió en la Mesa Redonda de Yale para compartir datos y códigos . Al revisar un manuscrito para una revista que no...

dataset validation reproducible-research journals