我想向我的 Pandas 数据框添加一个聚合的,分组的,唯一的列,但不聚合整个数据框。我正在尝试在一行中执行此操作,并避免创建新的聚合对象并将其合并,等等。

我的df有轨道,类型和ID。我想要每个轨道/类型组合的唯一ID的数量作为表中的新列(但不要在生成的df中折叠轨道/类型组合)。行数相同,另外1列。

像这样的东西不起作用:

df['n_unique_id'] = df.groupby(['track', 'type'])['id'].nunique()

也不是
df['n_unique_id'] = df.groupby(['track', 'type'])['id'].transform(nunique)

最后一个使用某些聚合功能,但不使用其他聚合功能。以下作品(但对我的数据集毫无意义):
df['n_unique_id'] = df.groupby(['track', 'type'])['id'].transform(sum)

在R中,这很容易在data.table中完成
df[, n_unique_id := uniqueN(id), by = c('track', 'type')]

谢谢!

最佳答案

df.groupby(['track', 'type'])['id'].transform(nunique)

表示在 namespace 中存在执行某些功能的名称nuniquetransform将采用一个函数或它知道该函数的字符串。 nunique绝对是这些字符串之一。

正如@root所指出的那样,pandas用来执行由这些字符串指示的转换的方法通常是经过优化的,通常比传递您自己的函数更可取。即使在某些情况下传递True函数,也可以使用numpy

例如,transform('sum')应该比transform(sum)更可取。

试试这个
df.groupby(['track', 'type'])['id'].transform('nunique')

演示
df = pd.DataFrame(dict(
    track=list('11112222'), type=list('AAAABBBB'), id=list('XXYZWWWW')))
print(df)

  id track type
0  X     1    A
1  X     1    A
2  Y     1    A
3  Z     1    A
4  W     2    B
5  W     2    B
6  W     2    B
7  W     2    B

df.groupby(['track', 'type'])['id'].transform('nunique')

0    3
1    3
2    3
3    3
4    1
5    1
6    1
7    1
Name: id, dtype: int64

关于python - 将分组的聚合nunique列添加到pandas数据框,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43726631/

10-16 02:39