Estadísticas y Big Data

11

¿Cómo probar si mis datos son discretos o continuos?

Me parece que para elegir las herramientas estadísticas correctas, primero tengo que identificar si mi conjunto de datos es discreto o continuo. ¿Podría importarme enseñarme cómo puedo probar si los datos son discretos o continuos con

r continuous-data discrete-data

11

¿Cómo comparar dos conjuntos de datos con el gráfico QQ usando ggplot2?

Como principiante en estadísticas y R, he tenido un momento realmente difícil tratando de generar qqplots con una relación de aspecto de 1: 1. ggplot2 parece ofrecer mucho más control sobre el trazado que los paquetes de trazado R predeterminados, pero no puedo ver cómo hacer un qqplot en ggplot2...

r distributions ggplot2 qq-plot

11

Comparación de coeficientes de correlación

Tengo dos conjuntos de datos donde tengo ~ 250,000 valores para 78 y 35 muestras. Algunas de las muestras son miembros de una familia y esto puede tener un efecto en los datos. He calculado la correlación por pares y varía entre 0.7 y 0.95, pero me gustaría saber si hay una diferencia significativa...

correlation cross-correlation intraclass-correlation

11

Ejemplos de cuándo coinciden el intervalo de confianza y el intervalo creíble

En el artículo de Wikipedia sobre el intervalo creíble , dice: Para el caso de un solo parámetro y datos que se pueden resumir en una sola estadística suficiente, se puede demostrar que el intervalo creíble y el intervalo de confianza coincidirán si el parámetro desconocido es un parámetro de...

confidence-interval credible-interval

11

¿Por qué el arranque de los residuos de un modelo de efectos mixtos produce intervalos de confianza anti-conservadores?

Normalmente trato con datos en los que se miden múltiples individuos cada uno de ellos en 2 o más condiciones. Recientemente he estado jugando con el modelado de efectos mixtos para evaluar la evidencia de diferencias entre condiciones, modeladoindividual como un efecto aleatorio. Para visualizar...

confidence-interval mixed-model bootstrap monte-carlo simulation

11

Fórmula para la regresión lineal simple ponderada

Esta página wiki La regresión lineal simple tiene fórmulas para calcular y . ¿Alguien podría decirme cómo derivar las fórmulas en caso

regression

11

Robusto ajuste gaussiano multivariante en R

Necesito ajustar una distribución gaussiana generalizada a una nube de puntos de 7 luces que contiene un número bastante significativo de valores atípicos con un alto apalancamiento. ¿Conoces algún buen paquete R para este

r distributions normal-distribution robust

11

¿Cómo dibujar un diagrama de pantalla en python? [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado el año pasado . Estoy usando la descomposición vectorial...

data-visualization python svd

11

¿Hay casos en los que no hay una k óptima en k-medias?

Esto ha estado dentro de mi mente durante al menos unas pocas horas. Estaba tratando de encontrar una k óptima para la salida del algoritmo k-means (con una métrica de similitud de coseno ), así que terminé trazando la distorsión en función del número de grupos. Mi conjunto de datos es una...

machine-learning clustering k-means

11

Determinar una discretización óptima de datos de una distribución continua

Suponga que tiene un conjunto de datos de una distribución continua con densidad compatible con que no se conoce, pero es bastante grande, por lo que la densidad del núcleo (por ejemplo) la estimación, , es bastante precisa. Para una aplicación particular, necesito transformar los datos observados...

continuous-data discrete-data

11

Problema al convertir de factor a variable numérica en R [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado hace 7 años . Me gustaría convertir una variable de factor en...

r data-transformation

11

Agrupación de SOM para variables nominales / circulares

Me pregunto si alguien está familiarizado con la agrupación de entradas nominales. He estado buscando en SOM como una solución, pero aparentemente solo funciona con características numéricas. ¿Hay alguna extensión para las características categóricas? Específicamente me preguntaba acerca de 'Días...

clustering unsupervised-learning self-organizing-maps

11

¿Cómo encontrar agrupaciones (trayectorias) entre datos longitudinales?

Contexto Quiero establecer la escena antes de ampliar un poco la cuestión. Tengo datos longitudinales, mediciones tomadas en sujetos aproximadamente cada 3 meses, el resultado primario es numérico (como en continuo a 1dp) en el rango de 5 a 14 con el grueso (de todos los puntos de datos) entre 7...

clustering panel-data

11

La referencia para la suma y diferencia de variables altamente correlacionadas es casi no correlacionada

En un artículo que escribí, modelé las variables aleatorias y lugar de e para eliminar eficazmente los problemas que surgen cuando e están altamente correlacionados y tienen la misma varianza (como en mi aplicación). Los árbitros quieren que les dé una referencia. Podría demostrarlo fácilmente,...

correlation multicollinearity

11

Alternativa para bloquear bootstrap para series de tiempo multivariadas

Actualmente utilizo el siguiente proceso para iniciar una serie de tiempo multivariante en R: Determine los tamaños de bloque: ejecute la función b.staren el nppaquete que produce un tamaño de bloque para cada serie Seleccione el tamaño máximo de bloque Ejecutar tsbooten cualquier serie usando el...

r time-series multivariate-analysis bootstrap

11

¿Puedo usar "ojo izquierdo" y "ojo derecho" en mi muestra como dos sujetos diferentes?

Mis datos son los siguientes. Tengo dos grupos de pacientes. Los pacientes en cada grupo tuvieron un tipo diferente de cirugía ocular. Se midieron 5 variables en pacientes de cada grupo. Quiero comparar esas variables entre los dos grupos usando una prueba de permutación o MANOVA. El ojo en el que...

sampling

11

¿Estadísticas de pedido (p. Ej., Mínimo) de una colección infinita de variantes de chi-cuadrado?

Esta es mi primera vez aquí, así que avíseme si puedo aclarar mi pregunta de alguna manera (incluido el formato, las etiquetas, etc.). (¡Y espero poder editar más tarde!) Traté de encontrar referencias e intenté resolverme usando la inducción, pero fallé en ambas. Estoy tratando de simplificar una...

distributions chi-squared exponential order-statistics minimum

11

Diseñando una prueba para un psíquico que dice que puede influir en los dados

Digamos que tengo un amigo (llamémosle "George") que dice que puede controlar el lanzamiento de dados usando su mente (es decir, hacer que los dados caigan en un número específico en el que está pensando). ¿Cómo puedo diseñar una prueba científicamente rigurosa para determinar si realmente puede...

probability experiment-design dice

11

Idoneidad de la prueba de rango con signo de Wilcoxon

He hurgado un poco en los archivos de Cross Validated y parece que no he encontrado una respuesta a mi pregunta. Mi pregunta es la siguiente: Wikipedia da tres supuestos que deben cumplirse para la prueba de rango con signo de Wilcoxon (ligeramente modificada para mis preguntas): Deje Zi = Xi-Yi...

r hypothesis-testing

11

Muestreo MCMC del espacio del árbol de decisión vs. bosque aleatorio

Un bosque aleatorio es una colección de árboles de decisión formados seleccionando aleatoriamente solo ciertas características con las que construir cada árbol (y algunas veces empaquetando los datos de entrenamiento). Aparentemente aprenden y generalizan bien. ¿Alguien ha realizado un muestreo...

mcmc monte-carlo random-forest cart