仅从sklearn CountVectorizer稀疏矩阵中过滤某些单词


我有一个充满了文字的熊猫系列 . 在 sklearn 包中使用 CountVectorizer 函数,我计算了稀疏矩阵 . 我也确定了最重要的词 . 现在我想只为那些顶级单词过滤我的稀疏矩阵 .

原始数据包含多个 7000 行,并包含多个 75000 个单词 . 因此我在这里创建一个示例数据

from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
words = pd.Series(['This is first row of the text column',
                   'This is second row of the text column',
                   'This is third row of the text column',
                   'This is fourth row of the text column',
                   'This is fifth row of the text column'])
count_vec = CountVectorizer(stop_words='english')
sparse_matrix = count_vec.fit_transform(words)

我为该列中的所有单词创建了稀疏矩阵 . 这里只是打印我的稀疏矩阵,我正在使用 .toarray() 函数将其转换为数组 .

print count_vec.get_feature_names()
print sparse_matrix.toarray()
[u'column', u'fifth', u'fourth', u'row', u'second', u'text']
[[1 0 0 1 0 1]
 [1 0 0 1 1 1]
 [1 0 0 1 0 1]
 [1 0 1 1 0 1]
 [1 1 0 1 0 1]]


# Get frequency count of all features
features_count = sparse_matrix.sum(axis=0).tolist()[0]
features_names = count_vec.get_feature_names()
features = pd.DataFrame(zip(features_names, features_count), 
                                columns=['features', 'count']
                               ).sort_values(by=['count'], ascending=False)

  features  count
0   column      5
3      row      5
5     text      5
1    fifth      1
2   fourth      1
4   second      1

从上面的结果我们知道经常出现的单词是 column ,_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _现在我想只为这些单词过滤我的稀疏矩阵 . 我不会将我的稀疏矩阵转换为数组然后过滤 . 因为我的原始数据中存在内存错误,因为单词的数量非常多 .

我能够获得稀疏矩阵的唯一方法是再次使用 vocabulary 属性重复这些特定单词的步骤,就像这样

countvec_subset = CountVectorizer(vocabulary= ['column', 'text', 'row'])

相反,我正在寻找一个更好的解决方案,我可以直接为这些单词过滤稀疏矩阵,而不是从头开始再次创建它 .

1 回答

    您可以使用切片稀疏矩阵 . 您需要派生用于切片的列 . sparse_matrix[:, columns]

    In [56]: feature_count = sparse_matrix.sum(axis=0)
    In [57]: columns = tuple(np.where(feature_count == feature_count.max())[1])
    In [58]: columns
    Out[58]: (0, 3, 5)
    In [59]: sparse_matrix[:, columns].toarray()
    array([[1, 1, 1],
           [1, 1, 1],
           [1, 1, 1],
           [1, 1, 1],
           [1, 1, 1]], dtype=int64)
    In [60]: type(sparse_matrix[:, columns])
    Out[60]: scipy.sparse.csr.csr_matrix
    In [71]: np.array(features_names)[list(columns)]
    array([u'column', u'row', u'text'],

    切片的子集仍然是 scipy.sparse.csr.csr_matrix
