我有一组TF-IDF特征向量 . 我想使用两种方法在数组中找到类似的向量:
余弦相似度
k-means聚类
使用Scikit Learn,这个过程非常简单 .
现在我想对某些功能进行加权,以便它们比其他功能更能影响结果 . 例如,我可能想对TF-IDF向量的前100个元素进行加权,以使这些特征比其他特征更能表示相似性 .
如何有意义地加权我的特征向量中的某些特征?对于我上面列出的每个相似度算法,加权某些特征的过程是否相同?
据我所知,TFIDF矩阵中的低值意味着单词不太重要 . 因此,一种方法是降低矩阵中您考虑的列的值 .
scikit中的数组是稀疏的,因此对于测试和调试,您可能希望转换为常规矩阵 . 我还使用xlsxwriter来概述应用TFIDF和KMeans时的实际情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/ .
1 回答
据我所知,TFIDF矩阵中的低值意味着单词不太重要 . 因此,一种方法是降低矩阵中您考虑的列的值 .
scikit中的数组是稀疏的,因此对于测试和调试,您可能希望转换为常规矩阵 . 我还使用xlsxwriter来概述应用TFIDF和KMeans时的实际情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/ .