Estadísticas y Big Data

54
¿Estamos exagerando la importancia de la asunción y evaluación del modelo en una era en la que los análisis suelen ser realizados por laicos?

En pocas palabras , cuanto más aprendo sobre estadísticas, menos confío en los trabajos publicados en mi campo; Simplemente creo que los investigadores no están haciendo sus estadísticas lo suficientemente bien. Soy un laico, por así decirlo. Estoy entrenado en biología pero no tengo educación...

54
¿Cuál es una explicación intuitiva de cómo PCA pasa de un problema geométrico (con distancias) a un problema de álgebra lineal (con vectores propios)?

He leído mucho sobre PCA, incluidos varios tutoriales y preguntas (como este , este , este y este ). El problema geométrico que PCA está tratando de optimizar es claro para mí: PCA trata de encontrar el primer componente principal minimizando el error de reconstrucción (proyección), que maximiza...

54
¿Cómo se complementan R y Python en ciencia de datos?

En muchos tutoriales o manuales, la narrativa parece implicar que R y python coexisten como componentes complementarios del proceso de análisis. Para mi ojo inexperto, sin embargo, parece que ambos idiomas hacen lo mismo. Entonces, mi pregunta es si realmente hay nichos especializados para los dos...

53
Regresión lineal en línea eficiente

Estoy analizando algunos datos en los que me gustaría realizar una regresión lineal ordinaria, sin embargo, esto no es posible ya que estoy tratando con una configuración en línea con un flujo continuo de datos de entrada (que rápidamente será demasiado grande para la memoria) y necesito para...

53
Aprendizaje automático con Python

Estoy considerando usar bibliotecas de Python para hacer mis experimentos de Machine Learning. Hasta ahora, había estado confiando en WEKA, pero en general he estado bastante insatisfecho. Esto se debe principalmente a que he encontrado que WEKA no está tan bien respaldado (muy pocos ejemplos, la...

53
API / feeds de datos disponibles como paquetes en R

EDITAR: La vista de tareas CRAN de Servicios y tecnologías web contiene una lista mucho más completa de fuentes de datos y API disponibles en R. Puede enviar una solicitud de extracción en github si desea agregar un paquete a la vista de tareas. Estoy haciendo una lista de los diversos feeds de...