首页 文章
  • 3 votes
     answers
     views

    pyspark 中的稀疏向量 RDD

    我已经使用 mllib 中的功能通过 Python/Pyspark 实现了此处介绍的 TF-IDF 方法: https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html 我有一套 150 个文本文档的培训套件,一个 80 个文本文档的测试套件。我已经为训练和测试 i.e 生成了一个哈希表 TF-IDF(稀疏向量的)RDD。袋中的...
  • 0 votes
     answers
     views

    我们如何使用TFIDF向量与多项式朴素贝叶斯?

    假设我们使用TFIDF转换将文档编码为连续值特征 . 我们现在如何使用它作为朴素贝叶斯分类器的输入? Bernoulli naive-bayes已经出局了,因为我们的功能不再是二进制了 .似乎我们也不能使用Multinomial naive-bayes,因为这些值是连续的而不是分类的 . 作为替代方案,使用高斯朴素贝叶斯代替它是否合适?在高斯分布假设下,TFIDF向量是否可能保持良好状态? 关于M...
  • 0 votes
     answers
     views

    除了Bag Of Words(TF-IDF)之外,将文本特征转换为数字特征的方法有哪些?

    这些天我一直在从事自然语言处理 . 我的目的是根据一些标准对罗马剧本中的多语言句子中的不同单词进行分类 . 因此,我需要一个分类器 . 毫无疑问,有很多 . 但由于我的特征不是数字而是文本,并且大多数分类器如支持向量机(SVM)输入数字特征,我寻找一些方法将我的文本特征转换为数字特征 . 虽然使用术语频率和反文档频率(TF-IDF)的Bag Of Words的概念是用于此目的的通用方法,但我的一个...
  • 2 votes
     answers
     views

    如何聚集不断发展的数据流

    我想逐步将文本文档作为数据流进行聚类,但似乎存在问题 . 大多数术语加权选项基于使用TF-IDF作为特征权重的向量空间模型 . 但是,在我们的情况下,现有属性的IDF随每个新数据点而变化,因此先前的聚类不再保持有效,因此不能应用任何流行的算法,如CluStream,CURE,BIRCH,它们假定固定的维度静态数据 . 任何人都可以将我重定向到与此相关的任何现有研究或提出建议吗?谢谢 !
  • 0 votes
     answers
     views

    比较文件 - 文件相似性

    我目前正在进行一个NLP / IR的java项目,对此我是相当新的 . 该项目由一个包含大约1000个文档的集合组成,每个文档大约有100个单词,结构为带有术语频率的单词包 . 我想根据文档(来自集合)找到类似的文档 . 使用TF-IDF,计算查询(给定文档)和集合中的每个其他文档的tf-idf,然后将这些值作为具有余弦相似性的向量进行比较 . 这可以对它们的相似性有所了解吗?或者它是不合理的,因...
  • 1 votes
     answers
     views

    加权TF-IDF特征向量中的特定特征,用于k均值聚类和余弦相似性

    我有一组TF-IDF特征向量 . 我想使用两种方法在数组中找到类似的向量: 余弦相似度 k-means聚类 使用Scikit Learn,这个过程非常简单 . 现在我想对某些功能进行加权,以便它们比其他功能更能影响结果 . 例如,我可能想对TF-IDF向量的前100个元素进行加权,以使这些特征比其他特征更能表示相似性 . 如何有意义地加权我的特征向量中的某些特征?对于我上面列出的每个相...
  • 2 votes
     answers
     views

    tf-idf的余弦相似替代(三角不等式)

    我正在尝试使用tf-idf来聚类类似的文档 . 我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起 . 问题是余弦相似性不满足三角不等式 . 因为在我的情况下,我不能在多个集群中拥有相同的向量,我必须将每个集群与一个共同的元素合并,这可能导致两个文档被分组在一起,即使它们彼此不相似 . 是否有另一种衡量两个文件相似性的方法,以便: 矢量分数根据其方向得分非常相似,无论其大小如...

热门问题