是否可以用作者信息补充朴素贝叶斯文本分类算法？-Java 学习之路

我正在进行一个文本分类项目，我正在尝试将主题分类分配给国会记录中的演讲 .

使用国会法案项目（http://congressionalbills.org/）中的主题代码，我've tagged speeches that mention a specific bill as belonging to the topic of the bill. I' m使用此作为模型的"training set" .

我有一个“香草”朴素贝叶斯分类器工作得很好，但我一直觉得我可以通过整合有关正在发表演讲的国 Session 员的信息来从算法中获得更好的准确性（例如某些成员更有可能谈论外交政策比其他人好 .

一种可能性是将NB分类器中的先验（通常定义为具有给定分类的训练集中的文档的比例）替换为演讲者观察到的先前演讲 .

这值得追求吗？是否存在遵循同样逻辑的现有方法？我对Latent Dirichlet分配模型中的“作者 - 主题模型”有点熟悉，但我喜欢NB模型的简单性 .

1 回答

0

无需修改任何内容，只需将此信息添加到 Naive Bayes ，它就可以正常工作 .

正如之前在评论中提到的那样 - 不要改变任何先验 - 先验概率是 P(class) ，这与实际特征有关.2603696_ .

只需在计算中添加与作者身份相对应的另一个功能，例如： "author:AUTHOR"和往常一样训练朴素贝叶斯，即 . 为每个 class 和 AUTHOR 计算 P(class|author:AUTHOR) 并在以后的分类过程中使用它 . 如果您当前的表示是一个单词包，则向其添加"author:AUTHOR"形式的"artificial"就足够了 .

另一种选择是为每个AUTHOR训练独立的分类器，例如，它可以捕获特定于人的语言类型 - 只有在谈论“自然”时才会使用大量的单词“环境”，而其他人只是喜欢添加这个单词在每个演讲中“哦，在我们当地的......环境中” . 独立的NB将捕获这些现象 .

回复于 2024-05-03T07:32:55+08:00

是否可以用作者信息补充朴素贝叶斯文本分类算法？

1 回答

相关问题