从熊猫数据框中创建单词包-Java 学习之路

有一个类似的question但我正在寻找的输出是不同的 .

我有一个数据框，列出了所有单词（列）和每个文档（行）的出现次数 .

它看起来像这样：

{'orange': {0: '1',
1: '3'},
'blue': {0: '0',
1: '2'}}

输出应该以这种方式“重新创建”原始文档作为一个单词包：

corpus = [
['orange'],
['orange', 'orange', 'orange', 'blue', 'blue']]

这该怎么做？

1 回答

如果你想要一个数据帧，你可以这样做：

import pandas as pd
from collections import defaultdict
data = {'orange': {0: '1',
                   1: '3'},
        'blue': {0: '0',
                 1: '2'}}


results = defaultdict(list)
for color, placement in data.items():
    for row, count in placement.items():
        values = results[row]
        values.extend(int(count) * [color])
df = pd.DataFrame.from_dict(results, orient='index')

如果你想要一个列表列表，只需：

[v for row, v in results.items()]

而不是 df 构建

回复于 2024-05-16T15:37:34+08:00

从熊猫数据框中创建单词包

1 回答

相关问题