有一个类似的question但我正在寻找的输出是不同的 .
我有一个数据框,列出了所有单词(列)和每个文档(行)的出现次数 .
它看起来像这样:
{'orange': {0: '1', 1: '3'}, 'blue': {0: '0', 1: '2'}}
输出应该以这种方式“重新创建”原始文档作为一个单词包:
corpus = [ ['orange'], ['orange', 'orange', 'orange', 'blue', 'blue']]
这该怎么做?
如果你想要一个数据帧,你可以这样做:
import pandas as pd from collections import defaultdict data = {'orange': {0: '1', 1: '3'}, 'blue': {0: '0', 1: '2'}} results = defaultdict(list) for color, placement in data.items(): for row, count in placement.items(): values = results[row] values.extend(int(count) * [color]) df = pd.DataFrame.from_dict(results, orient='index')
如果你想要一个列表列表,只需:
[v for row, v in results.items()]
而不是 df 构建
df
1 回答
如果你想要一个数据帧,你可以这样做:
如果你想要一个列表列表,只需:
而不是
df
构建