首页 文章

基于主题的推荐系统的用户配置文件

提问于
浏览
2

我正在尝试提出一个基于主题的推荐系统来向用户推荐相关的文本文档 .

我在维基百科语料库上使用gensim训练了一个潜在的语义索引模型 . 这使我可以轻松地将文档转换为LSI主题分发 . 我现在的想法是以同样的方式代表用户 . 然而,当然,用户具有观看文章的历史以及文章的评级 .

所以我的问题是:如何代表用户?

我的想法如下:将用户表示为所有查看文档的聚合 . 但如何考虑评级?

有任何想法吗?

谢谢

2 回答

  • 1

    我不认为这与lsa合作 .

    但是你可能会做某种k-NN分类,其中每个用户的坐标都是查看过的文档 . 每个对象(=用户)发出辐射(强度与距离的平方成反比) . 强度根据单个文档的评级计算 .

    然后你可以将一个对象(用户)放在这个超维空间中,看看其他用户给出的最多“光” .

    但是:Apache Lucene不能为你做那整件事吗?

  • 0

    “将用户表示为所有已查看文档的聚合”:这可能确实有效,因为您处于线性空间中 . 您可以轻松地将所有文档向量添加到一个大向量中 .

    如果你想添加评级,你可以简单地在总和中加上一个系数 .

    假设您将所有在矢量D2中评级为2的文档分组,在D3等级中评定为3等等...然后您只需将用户矢量定义为U = c2 * D2 c3 * D3 ...您可以使用各种形式的c2,c3,但最简单的方法是简单地乘以评级,并除以归一化原因的最大评级 .

    如果你的最大等级是5,你可以定义例如c2 = 2/5,c3 = 3/5 ......

相关问题