首页 文章

是否可以用作者信息补充朴素贝叶斯文本分类算法?

提问于
浏览
1

我正在进行一个文本分类项目,我正在尝试将主题分类分配给国会记录中的演讲 .

使用国会法案项目(http://congressionalbills.org/)中的主题代码,我've tagged speeches that mention a specific bill as belonging to the topic of the bill. I' m使用此作为模型的"training set" .

我有一个“香草”朴素贝叶斯分类器工作得很好,但我一直觉得我可以通过整合有关正在发表演讲的国 Session 员的信息来从算法中获得更好的准确性(例如某些成员更有可能谈论外交政策比其他人好 .

一种可能性是将NB分类器中的先验(通常定义为具有给定分类的训练集中的文档的比例)替换为演讲者观察到的先前演讲 .

这值得追求吗?是否存在遵循同样逻辑的现有方法?我对Latent Dirichlet分配模型中的“作者 - 主题模型”有点熟悉,但我喜欢NB模型的简单性 .

1 回答

  • 0

    无需修改任何内容,只需将此信息添加到 Naive Bayes ,它就可以正常工作 .

    正如之前在评论中提到的那样 - 不要改变任何先验 - 先验概率是 P(class) ,这与实际特征有关.2603696_ .

    只需在计算中添加与作者身份相对应的另一个功能,例如: "author:AUTHOR"和往常一样训练朴素贝叶斯,即 . 为每个 classAUTHOR 计算 P(class|author:AUTHOR) 并在以后的分类过程中使用它 . 如果您当前的表示是一个单词包,则向其添加"author:AUTHOR"形式的"artificial"就足够了 .

    另一种选择是为每个AUTHOR训练独立的分类器,例如,它可以捕获特定于人的语言类型 - 只有在谈论“自然”时才会使用大量的单词“环境”,而其他人只是喜欢添加这个单词在每个演讲中“哦,在我们当地的......环境中” . 独立的NB将捕获这些现象 .

相关问题