我使用df_all创建了一个新的数据框
classA classB year1 count1 docID1 year2 count2 doc2
0 A8 B1 1972 1 0 1973 3 U015|U348|U768
1 A8 B2 1972 2 U157|U596 1973 0 0
2 A8 B3 1972 0 0 1973 1 U124
我已将docID1和docID2合并到新列中
df_all['all_doc']=df_all['docID1'].astype(str)+'|'+df_all['docID2'].astype(str)
classA classB year1 count1 docID1 year2 count2 doc2 all_doc
0 A8 B1 1972 1 0 1973 3 U015|U348|U768 ||U015|U348|U768
1 A8 B2 1972 2 U157|U596 1973 0 0 U157|U596|0
2 A8 B3 1972 0 0 1973 1 U124 ||U124
在 'all_doc'
列中,每行都有重复的'|' . 我想知道如何删除每一行中的重复'|'
我希望看到这样的结果
|U015|U348|U768
|U124
先感谢您
2 回答
特定
你可以发行
正则表达式
\|+
指定|
个字符的序列 . 这些序列中的每一个都被单个|
替换 .过滤器替换总和
您可以按标签筛选适当的列,将
0
替换为空字符串,然后求和: