首页 文章

从熊猫数据框中创建单词包

提问于
浏览
1

有一个类似的question但我正在寻找的输出是不同的 .

我有一个数据框,列出了所有单词(列)和每个文档(行)的出现次数 .

它看起来像这样:

{'orange': {0: '1',
1: '3'},
'blue': {0: '0',
1: '2'}}

输出应该以这种方式“重新创建”原始文档作为一个单词包:

corpus = [
['orange'],
['orange', 'orange', 'orange', 'blue', 'blue']]

这该怎么做?

1 回答

  • 2

    如果你想要一个数据帧,你可以这样做:

    import pandas as pd
    from collections import defaultdict
    data = {'orange': {0: '1',
                       1: '3'},
            'blue': {0: '0',
                     1: '2'}}
    
    
    results = defaultdict(list)
    for color, placement in data.items():
        for row, count in placement.items():
            values = results[row]
            values.extend(int(count) * [color])
    df = pd.DataFrame.from_dict(results, orient='index')
    

    如果你想要一个列表列表,只需:

    [v for row, v in results.items()]
    

    而不是 df 构建

相关问题