¿Cuál es la forma de Python para leer un archivo CSV en un DataFrame de pandas (que luego puedo usar para operaciones estadísticas, puede tener columnas de tipos diferentes, etc.)? Mi archivo CSV "value.txt"tiene el siguiente
¿Cuál es la forma de Python para leer un archivo CSV en un DataFrame de pandas (que luego puedo usar para operaciones estadísticas, puede tener columnas de tipos diferentes, etc.)? Mi archivo CSV "value.txt"tiene el siguiente
Tengo un marco de datos de índices múltiples con columnas 'A' y 'B'. ¿Hay alguna manera de seleccionar filas filtrando en una columna del índice múltiple sin restablecer el índice a un índice de una sola columna? Por ejemplo. # has multi-index (A,B) df #can I do this? I know this doesn't...
He estado muy confundido acerca de cómo se definen los ejes de Python y si se refieren a filas o columnas de un DataFrame. Considere el siguiente código: >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1...
Cerrado. Esta pregunta no cumple con las pautas de Stack Overflow . Actualmente no acepta respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté relacionada con el tema de Stack Overflow. Cerrado hace 2 años . Mejora esta...
Supongamos que tengo un diccionario anidado 'user_dict' con estructura: Nivel 1: UserId (entero largo) Nivel 2: Categoría (cadena) Nivel 3: Atributos surtidos (flotadores, entradas, etc.) Por ejemplo, una entrada de este diccionario sería: user_dict[12] = { "Category 1": {"att_1": 1,...
Teniendo un marco de datos, ¿cómo hago para reemplazar todos los valores particulares a lo largo de todas las filas y columnas? Digamos, por ejemplo, que quiero reemplazar todos los registros vacíos con NA's (sin escribir las posiciones): df <- data.frame(list(A=c("", "xyz", "jkl"), B=c(12,...
Tengo dos marcos de datos. Ejemplos: df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6...
Estaba buscando una forma de anotar mis barras en un gráfico de barras de Pandas con los valores numéricos redondeados de mi DataFrame. >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df A B value1 0.440922 0.911800 value2...
Tengo un marco de datos de pandas (esto es solo una pequeña parte) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622,...
Quiero agregar un _xsufijo a cada nombre de columna así: featuresA = myPandasDataFrame.columns.values + '_x' ¿Cómo hago esto? Además, si quisiera agregar x_como sufijo, ¿cómo cambiaría la solución?
Estoy usando pyspark (Python 2.7.9 / Spark 1.3.1) y tengo un GroupObject de marco de datos que necesito filtrar y ordenar en orden descendente. Tratando de lograrlo a través de este código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Pero arroja el...
Tengo un marco de datos que puede verse así: A B C foo bar foo bar bar foo foo bar Quiero mirar a través de cada elemento de cada fila (o cada elemento de cada columna) y aplicar la siguiente función para obtener el DF subsiguiente: def foo_bar(x): return x.replace('foo', 'wow') A B C wow...
Tengo un marco de datos que tiene columnas a, by c. Me gustaría agregar una nueva columna d entre by c. Sé que podría agregar d al final usando cbind, pero ¿cómo puedo insertarlo entre dos columnas?
Tengo un vector de caracteres con nombre devuelto por xmlAttrs como este: testVect <- structure(c("11.2.0.3.0", "12.89", "12.71"), .Names = c("db_version", "elapsed_time", "cpu_time")) Me gustaría convertirlo en un marco de datos que se vea así: testDF <-
Tengo un marco de datos con 10 columnas, que recopilan acciones de "usuarios", donde una de las columnas contiene un ID (no único, que identifica al usuario) (columna 10). la longitud del marco de datos es de aproximadamente 750000 filas. Estoy tratando de extraer marcos de datos individuales...
Tengo un marco de datos de pandas. Quiero "retrasar" una de mis columnas. Es decir, por ejemplo, desplazar toda la columna 'pib' hacia arriba en uno y luego eliminar todos los datos en exceso en la parte inferior de las filas restantes para que todas las columnas vuelvan a tener la misma...
De un marco de datos como este test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 5 J Quiero crear uno nuevo con la primera fila...
Estoy intentando volver a indexar un DataFrameobjeto pandas , así, From: a b c 0 1 2 3 1 10 11 12 2 20 21 22 To : b c 1 2 3 10 11 12 20 21 22 Estoy haciendo esto como se muestra a continuación y obtengo la respuesta incorrecta. ¿Alguna pista sobre cómo hacer esto? >>> col =...
Tengo un siguiente DataFrame: from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) Se parece a esto: bar foo 0 1 a 1 2 b 2 3 c Ahora quiero tener algo como: bar 0 1 is a 1 2 is b 2 3 is c ¿Cómo puedo conseguir esto? Intenté lo siguiente: df['foo'] = '%s is %s'...
Tengo dos marcos de datos con los siguientes nombres de columna: frame_1: event_id, date, time, county_ID frame_2: countyid, state Me gustaría obtener un marco de datos con las siguientes columnas uniéndome (izquierda) en county_ID = countyid: joined_dataframe event_id, date, time, county,...