我正在进行一个文本分类项目,我正在尝试将主题分类分配给国会记录中的演讲 .
使用国会法案项目(http://congressionalbills.org/)中的主题代码,我've tagged speeches that mention a specific bill as belonging to the topic of the bill. I' m使用此作为模型的"training set" .
我有一个“香草”朴素贝叶斯分类器工作得很好,但我一直觉得我可以通过整合有关正在发表演讲的国 Session 员的信息来从算法中获得更好的准确性(例如某些成员更有可能谈论外交政策比其他人好 .
一种可能性是将NB分类器中的先验(通常定义为具有给定分类的训练集中的文档的比例)替换为演讲者观察到的先前演讲 .
这值得追求吗?是否存在遵循同样逻辑的现有方法?我对Latent Dirichlet分配模型中的“作者 - 主题模型”有点熟悉,但我喜欢NB模型的简单性 .
1 回答
无需修改任何内容,只需将此信息添加到
Naive Bayes
,它就可以正常工作 .正如之前在评论中提到的那样 - 不要改变任何先验 - 先验概率是
P(class)
,这与实际特征有关.2603696_ .只需在计算中添加与作者身份相对应的另一个功能,例如: "author:AUTHOR"和往常一样训练朴素贝叶斯,即 . 为每个
class
和AUTHOR
计算P(class|author:AUTHOR)
并在以后的分类过程中使用它 . 如果您当前的表示是一个单词包,则向其添加"author:AUTHOR"形式的"artificial"就足够了 .另一种选择是为每个AUTHOR训练独立的分类器,例如,它可以捕获特定于人的语言类型 - 只有在谈论“自然”时才会使用大量的单词“环境”,而其他人只是喜欢添加这个单词在每个演讲中“哦,在我们当地的......环境中” . 独立的NB将捕获这些现象 .