crear una matriz NxN de pandas de una columna

11

Tengo un marco de datos con cada fila que tiene un valor de lista.

id     list_of_value
0      ['a','b','c']
1      ['d','b','c']
2      ['a','b','c']
3      ['a','b','c']

Tengo que calcular una puntuación con una fila y contra todas las otras filas

Por ejemplo:

Step 1: Take value of id 0: ['a','b','c'],
Step 2: find the intersection between id 0 and id 1 , 
        resultant = ['b','c']
Step 3: Score Calculation => resultant.size / id.size

repita el paso 2,3 entre id 0 e id 1,2,3, de manera similar para todos los identificadores.

y crear un marco de datos N x N; como esto:

-  0  1    2  3
0  1  0.6  1  1
1  1  1    1  1 
2  1  1    1  1
3  1  1    1  1

En este momento mi código solo tiene uno para el bucle:

def scoreCalc(x,queryTData):
    #mathematical calculation
    commonTData = np.intersect1d(np.array(x),queryTData)
    return commonTData.size/queryTData.size

ids = list(df['feed_id'])
dfSim = pd.DataFrame()

for indexQFID in range(len(ids)):
    queryTData = np.array(df.loc[df['id'] == ids[indexQFID]]['list_of_value'].values.tolist())

    dfSim[segmentDfFeedIds[indexQFID]] = segmentDf['list_of_value'].apply(scoreCalc,args=(queryTData,))

¿Hay una mejor manera de hacer esto? ¿puedo simplemente escribir una función de aplicación en lugar de hacer una iteración for-loop? ¿Puedo hacerlo más rápido?

Sriram Arvind Lakshmanakumar
fuente
1
editó la pregunta, @Babydesta
Sriram Arvind Lakshmanakumar
1
no es 6, es 0.6, resultante.size = 2, id.size = 3
Sriram Arvind Lakshmanakumar
¿Cuánto duran tus datos? y totalmente, ¿en cuántos valores ocurren list_of_value?
Quang Hoang
máximo de 20 valores en cada list_of_value
Sriram Arvind Lakshmanakumar
No en cada uno list_of_value. Quiero decir en total, en todas las filas.
Quang Hoang

Respuestas:

7

Si sus datos no son demasiado grandes, puede usar get_dummiespara codificar los valores y hacer una multiplicación matricial:

s = pd.get_dummies(df.list_of_value.explode()).sum(level=0)
s.dot(s.T).div(s.sum(1))

Salida:

          0         1         2         3
0  1.000000  0.666667  1.000000  1.000000
1  0.666667  1.000000  0.666667  0.666667
2  1.000000  0.666667  1.000000  1.000000
3  1.000000  0.666667  1.000000  1.000000

Actualización : Aquí hay una breve explicación del código. La idea principal es convertir las listas dadas en codificadas en caliente:

   a  b  c  d
0  1  1  1  0
1  0  1  1  1
2  1  1  1  0
3  1  1  1  0

Una vez que tenemos eso, el tamaño de la intersección de las dos filas, digamos, 0y 1es solo su producto de punto, porque un personaje pertenece a ambas filas si y solo si está representado por 1ambas.

Con eso en mente, primer uso

df.list_of_value.explode()

para convertir cada celda en una serie y concatenar todas esas series. Salida:

0    a
0    b
0    c
1    d
1    b
1    c
2    a
2    b
2    c
3    a
3    b
3    c
Name: list_of_value, dtype: object

Ahora, usamos pd.get_dummiesesa serie para convertirla en un marco de datos codificado en caliente:

   a  b  c  d
0  1  0  0  0
0  0  1  0  0
0  0  0  1  0
1  0  0  0  1
1  0  1  0  0
1  0  0  1  0
2  1  0  0  0
2  0  1  0  0
2  0  0  1  0
3  1  0  0  0
3  0  1  0  0
3  0  0  1  0

Como puede ver, cada valor tiene su propia fila. Como queremos combinar los que pertenecen a la misma fila original en una fila, podemos sumarlos por el índice original. Así

s = pd.get_dummies(df.list_of_value.explode()).sum(level=0)

da el marco de datos codificado en binario que queremos. La proxima linea

s.dot(s.T).div(s.sum(1))

es igual que su lógica: s.dot(s.T)calcula los productos de puntos por filas, luego .div(s.sum(1))divide los recuentos por filas.

Quang Hoang
fuente
Marco de datos de 12k filas
Sriram Arvind Lakshmanakumar
@SriramArvindLakshmanakumar con 12k filas, terminaría con un 12k x 12kmarco de datos. Debería estar bien si tiene alrededor de unos cientos de valores únicos.
Quang Hoang
podría explicar el código también?
Sriram Arvind Lakshmanakumar
Claro, pero ¿funciona?
Quang Hoang
1
@SriramArvindLakshmanakumar Gracias por aceptar mi solución. Consulte la actualización para obtener una explicación y lógica de pensamiento.
Quang Hoang
3

Prueba esto

range_of_ids = range(len(ids))

def score_calculation(s_id1,s_id2):
    s1 = set(list(df.loc[df['id'] == ids[s_id1]]['list_of_value'])[0])
    s2 = set(list(df.loc[df['id'] == ids[s_id2]]['list_of_value'])[0])
    # Resultant calculation s1&s2
    return round(len(s1&s2)/len(s1) , 2)


dic = {indexQFID:  [score_calculation(indexQFID,ind) for ind in range_of_ids] for indexQFID in range_of_ids}
dfSim = pd.DataFrame(dic)
print(dfSim)

Salida

     0        1      2       3
0   1.00    0.67    1.00    1.00
1   0.67    1.00    0.67    0.67
2   1.00    0.67    1.00    1.00
3   1.00    0.67    1.00    1.00

También puedes hacerlo de la siguiente manera

dic = {indexQFID:  [round(len(set(s1)&set(s2))/len(s1) , 2) for s2 in df['list_of_value']] for indexQFID,s1 in zip(df['id'],df['list_of_value']) }
dfSim = pd.DataFrame(dic)
print(dfSim)
FAHAD SIDDIQUI
fuente
2

Utilice la comprensión de la lista anidada en la lista de conjunto s_list. Dentro de la comprensión de la lista, utilice la intersectionoperación para verificar la superposición y obtener la longitud de cada resultado. Finalmente, construya el marco de datos y divídalo por la longitud de cada lista endf.list_of_value

s_list =  df.list_of_value.map(set)
overlap = [[len(s1 & s) for s1 in s_list] for s in s_list]

df_final = pd.DataFrame(overlap) / df.list_of_value.str.len().to_numpy()[:,None]

Out[76]:
          0         1         2         3
0  1.000000  0.666667  1.000000  1.000000
1  0.666667  1.000000  0.666667  0.666667
2  1.000000  0.666667  1.000000  1.000000
3  1.000000  0.666667  1.000000  1.000000

En caso de que haya valores duplicados en cada lista, debe usarlos en collections.Counterlugar de set. Cambié los datos de muestra id = 0 a ['a','a','c']e id = 1 a['d','b','a']

sample df:
id     list_of_value
0      ['a','a','c'] #changed
1      ['d','b','a'] #changed
2      ['a','b','c']
3      ['a','b','c']

from collections import Counter

c_list =  df.list_of_value.map(Counter)
c_overlap = [[sum((c1 & c).values()) for c1 in c_list] for c in c_list]

df_final = pd.DataFrame(c_overlap) / df.list_of_value.str.len().to_numpy()[:,None]


 Out[208]:
          0         1         2         3
0  1.000000  0.333333  0.666667  0.666667
1  0.333333  1.000000  0.666667  0.666667
2  0.666667  0.666667  1.000000  1.000000
3  0.666667  0.666667  1.000000  1.000000
Andy L.
fuente
2

Actualizado

Dado que se proponen muchas soluciones candidatas, parece una buena idea hacer un análisis de tiempo. Generé algunos datos aleatorios con 12k filas según lo solicitado por el OP, manteniendo los 3 elementos por conjunto pero ampliando el tamaño del alfabeto disponible para completar los conjuntos. Esto se puede ajustar para que coincida con los datos reales.

Avíseme si tiene una solución que le gustaría probar o actualizar.

Preparar

import pandas as pd
import random

ALPHABET = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

def random_letters(n, n_letters=52):
    return random.sample(ALPHABET[:n_letters], n)

# Create 12k rows to test scaling.
df = pd.DataFrame([{'id': i, 'list_of_value': random_letters(3)} for i in range(12000)])

Ganador actual

def method_quang(df): 
    s = pd.get_dummies(df.list_of_value.explode()).sum(level=0) 
    return s.dot(s.T).div(s.sum(1)) 

%time method_quang(df)                                                                                                                                                                                                               
# CPU times: user 10.5 s, sys: 828 ms, total: 11.3 s
# Wall time: 11.3 s
# ...
# [12000 rows x 12000 columns]

Contendientes

def method_mcskinner(df):
    explode_df = df.set_index('id').list_of_value.explode().reset_index() 
    explode_df = explode_df.rename(columns={'list_of_value': 'value'}) 
    denom_df = explode_df.groupby('id').size().reset_index(name='denom') 
    numer_df = explode_df.merge(explode_df, on='value', suffixes=['', '_y']) 
    numer_df = numer_df.groupby(['id', 'id_y']).size().reset_index(name='numer') 
    calc_df = numer_df.merge(denom_df, on='id') 
    calc_df['score'] = calc_df['numer'] / calc_df['denom'] 
    return calc_df.pivot('id', 'id_y', 'score').fillna(0) 

%time method_mcskinner(df)
# CPU times: user 29.2 s, sys: 9.66 s, total: 38.9 s
# Wall time: 29.6 s
# ...
# [12000 rows x 12000 columns]
def method_rishab(df): 
    vals = [[len(set(val1) & set(val2)) / len(val1) for val2 in df['list_of_value']] for val1 in df['list_of_value']]
    return pd.DataFrame(columns=df['id'], data=vals)

%time method_rishab(df)                                                                                                                                                                                                              
# CPU times: user 2min 12s, sys: 4.64 s, total: 2min 17s
# Wall time: 2min 18s
# ...
# [12000 rows x 12000 columns]
def method_fahad(df): 
    ids = list(df['id']) 
    range_of_ids = range(len(ids)) 

    def score_calculation(s_id1,s_id2): 
        s1 = set(list(df.loc[df['id'] == ids[s_id1]]['list_of_value'])[0]) 
        s2 = set(list(df.loc[df['id'] == ids[s_id2]]['list_of_value'])[0]) 
        # Resultant calculation s1&s2 
        return round(len(s1&s2)/len(s1) , 2) 

    dic = {indexQFID:  [score_calculation(indexQFID,ind) for ind in range_of_ids] for indexQFID in range_of_ids} 
    return pd.DataFrame(dic) 

# Stopped manually after running for more than 10 minutes.

Publicación original con detalles de la solución

Es posible hacer esto en pandas con una autounión.

Como han señalado otras respuestas, el primer paso es desempaquetar los datos en una forma más larga.

explode_df = df.set_index('id').list_of_value.explode().reset_index()
explode_df = explode_df.rename(columns={'list_of_value': 'value'})
explode_df
#     id value
# 0    0     a
# 1    0     b
# 2    0     c
# 3    1     d
# 4    1     b
# ...

Desde esta tabla es posible calcular los recuentos por ID.

denom_df = explode_df.groupby('id').size().reset_index(name='denom')
denom_df
#    id  denom
# 0   0      3
# 1   1      3
# 2   2      3
# 3   3      3

Y luego viene la autounión, que ocurre en la valuecolumna. Esto empareja las ID una vez para cada valor de intersección, por lo que las ID emparejadas se pueden contar para obtener los tamaños de intersección.

numer_df = explode_df.merge(explode_df, on='value', suffixes=['', '_y'])
numer_df = numer_df.groupby(['id', 'id_y']).size().reset_index(name='numer')
numer_df
#     id  id_y  numer
# 0    0     0      3
# 1    0     1      2
# 2    0     2      3
# 3    0     3      3
# 4    1     0      2
# 5    1     1      3
# ...

Estos dos se pueden fusionar y calcular una puntuación.

calc_df = numer_df.merge(denom_df, on='id')
calc_df['score'] = calc_df['numer'] / calc_df['denom']
calc_df
#     id  id_y  numer  denom     score
# 0    0     0      3      3  1.000000
# 1    0     1      2      3  0.666667
# 2    0     2      3      3  1.000000
# 3    0     3      3      3  1.000000
# 4    1     0      2      3  0.666667
# 5    1     1      3      3  1.000000
# ...

Si prefiere la forma matricial, eso es posible con a pivot. Esta será una representación mucho más grande si los datos son escasos.

calc_df.pivot('id', 'id_y', 'score').fillna(0)
# id_y         0         1         2         3
# id                                          
# 0     1.000000  0.666667  1.000000  1.000000
# 1     0.666667  1.000000  0.666667  0.666667
# 2     1.000000  0.666667  1.000000  1.000000
# 3     1.000000  0.666667  1.000000  1.000000
mcskinner
fuente
1

Esta solución va a funcionar de manera eficiente con cualquier tamaño de los datos y cualquier tipo de valores en su listdecir, su stro into de otra manera, también el cuidado de los valores repetitivos si los hubiere.

# dummy data
df = pd.DataFrame({'id': [0, 1, 2, 3], 'list_of_value': [['a','b','c'],['d','b','c'], ['a','b','c'], ['a','b','c']]})
# calculating the target values using list comprehension
vals = [[len(set(val1) & set(val2)) / len(val1) for val2 in df['list_of_value']] for val1 in df['list_of_value']]
# new resultant Dataframe
df =  pd.DataFrame(columns=df['id'], data=vals)

En este caso, la comprensión de la lista funciona mejor porque no necesita cargar el atributo append de la lista y llamarlo como una función en cada iteración. En otras palabras y en general, las comprensiones de listas funcionan más rápido porque suspender y reanudar el marco de una función, o las funciones múltiples en otros casos son más lentas que crear una lista a pedido.

Usar una comprensión de la lista en lugar de un bucle que no construye una lista, acumular sin sentido una lista de valores sin sentido y luego desecharla, a menudo es más lento debido a la sobrecarga de crear y extender la lista.

Resultado:

id         0         1         2         3
0   1.000000  0.666667  1.000000  1.000000
1   0.666667  1.000000  0.666667  0.666667
2   1.000000  0.666667  1.000000  1.000000
3   1.000000  0.666667  1.000000  1.000000

Tiempo de ejecución:

import timeit

def function():
    df = pd.DataFrame({'id': [0, 1, 2, 3], 'list_of_value': [['a','b','c'],['d','b','c'], ['a','b','c'], ['a','b','c']]})
    vals = [[len(set(val1) & set(val2)) / len(val1) for val2 in df['list_of_value']] for val1 in df['list_of_value']]
    df =  pd.DataFrame(columns=df['id'], data=vals)

print(timeit.timeit(f'{function()}', number=1000000))
# 0.010986731999999999
Rishab P.
fuente
0

Puede convertir la lista a un conjunto y usar la función de intersección para verificar la superposición:

(solo se utiliza 1 función de aplicación como solicitó :-))

(
    df.assign(s = df.list_of_value.apply(set))
    .pipe(lambda x: pd.DataFrame([[len(e&f)/len(e) for f in x.s] for e in x.s]))
)

    0           1           2           3
0   1.000000    0.666667    1.000000    1.000000
1   0.666667    1.000000    0.666667    0.666667
2   1.000000    0.666667    1.000000    1.000000
3   1.000000    0.666667    1.000000    1.000000
Allen
fuente
0

Solía productobtener todas las combinaciones. Luego podemos verificar con numpy.isiny numpy.mean:

from itertools import product
l = len(df)
new_df = pd.DataFrame(data = np.array(list(map(lambda arr: np.isin(*arr),
                                                product(df['list_of_value'],
                                                        repeat=2))))
                               .mean(axis=1).reshape(l,-1),
                      index = df['id'],
                      columns=df['id'])

id         0         1         2         3
id                                        
0   1.000000  0.666667  1.000000  1.000000
1   0.666667  1.000000  0.666667  0.666667
2   1.000000  0.666667  1.000000  1.000000
3   1.000000  0.666667  1.000000  1.000000

Muestra de tiempo

%%timeit
l = len(df)
new_df = pd.DataFrame(data = np.array(list(map(lambda arr: np.isin(*arr),
                                                product(df['list_of_value'],
                                                        repeat=2))))
                               .mean(axis=1).reshape(l,-1),
                      index = df['id'],
                      columns=df['id'])
594 µs ± 5.05 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
ansev
fuente
0

Debe ser rápido, también considere el duplicado en la lista

... import itertools
... from collections import Counter
... a=df.list_of_value.tolist()
... l=np.array([len(Counter(x[0]) & Counter(x[1]))for x in [*itertools.product(a,a)]]).reshape(len(df),-1)
... out=pd.DataFrame(l/df.list_of_value.str.len().values[:,None],index=df.id,columns=df.id)
... 
out
id         0         1         2         3
id                                        
0   1.000000  0.666667  1.000000  1.000000
1   0.666667  1.000000  0.666667  0.666667
2   1.000000  0.666667  1.000000  1.000000
3   1.000000  0.666667  1.000000  1.000000
YOBEN_S
fuente
0

¡Si! Estamos buscando un producto cartesiano aquí, que se proporciona en esta respuesta. Esto se puede lograr sin un bucle for o una comprensión de la lista

Agreguemos un nuevo valor repetido a nuestro marco de datos dfpara que se vea así:

df['key'] = np.repeat(1, df.shape[0])
df

  list_of_values  key
0      [a, b, c]    1
1      [d, b, c]    1
2      [a, b, c]    1
3      [a, b, c]    1

Siguiente fusionarse consigo mismo

merged = pd.merge(df, df, on='key')[['list_of_values_x', 'list_of_values_y']]

Así es como se ve el marco combinado:

   list_of_values_x list_of_values_y
0         [a, b, c]        [a, b, c]
1         [a, b, c]        [d, b, c]
2         [a, b, c]        [a, b, c]
3         [a, b, c]        [a, b, c]
4         [d, b, c]        [a, b, c]
5         [d, b, c]        [d, b, c]
6         [d, b, c]        [a, b, c]
7         [d, b, c]        [a, b, c]
8         [a, b, c]        [a, b, c]
9         [a, b, c]        [d, b, c]
10        [a, b, c]        [a, b, c]
11        [a, b, c]        [a, b, c]
12        [a, b, c]        [a, b, c]
13        [a, b, c]        [d, b, c]
14        [a, b, c]        [a, b, c]
15        [a, b, c]        [a, b, c]

Luego aplicamos la función deseada a cada fila usando axis=1

values = merged.apply(lambda x: np.intersect1d(x[0], x[1]).shape[0] / len(x[1]), axis=1)

Reformar esto para obtener valores en el formato deseado

values.values.reshape(4, 4)
array([[1.        , 0.66666667, 1.        , 1.        ],
       [0.66666667, 1.        , 0.66666667, 0.66666667],
       [1.        , 0.66666667, 1.        , 1.        ],
       [1.        , 0.66666667, 1.        , 1.        ]])

Espero que esto ayude :)

Pushkar Nimkar
fuente