首页 文章
  • 1 votes
     answers
     views

    基于项目的协作过滤器的最小数据量

    我正在研究推荐引擎,它使用基于项目的协作过滤器为餐馆创建推荐 . 每间餐厅的评论都是1-5分 .每个推荐算法都会遇到数据稀疏性问题,所以我一直在寻找计算正确相关性的解决方案 . 我在餐馆之间使用调整后的余弦相似度 . 如果要计算餐馆之间的相似度,则需要对两家餐馆进行评级的用户 . 但是,对两家餐馆进行评分以获得正确相关性的最低用户是多少? 通过测试,我发现一组对两家餐馆进行评级的用户都会导致相似性...
  • 1 votes
     answers
     views

    调整后的余弦相似度无法正常工作

    我在餐馆之间使用adjusted cosine similarity开发item-based collaborative filter以产生推荐 . 我设置了一切并且运行良好,但是当我尝试模拟可能的测试场景时,我得到了一些有趣的结果 . 我将从我的测试数据开始 . 我有2家餐馆,我想计算它们之间的相似性,3个用户都评价了2家餐厅相同 . 我将使用以下矩阵解释它: User 1 | User 2 |...
  • 0 votes
     answers
     views

    使用项目相似性的csr_matrix来获得与项目X最相似的项目,而无需将csr_matrix转换为密集矩阵

    我有购买数据( df_temp ) . 我设法使用Pandas Dataframe替换使用稀疏的csr_matrix,因为我有很多产品(89000),我必须获取他们的用户项信息(购买或未购买),然后计算产品之间的相似性 . 首先,我将Pandas DataFrame转换为Numpy数组: df_user_product = df_temp[['user_id','product_id']].cop...
  • 2 votes
     answers
     views

    tf-idf的余弦相似替代(三角不等式)

    我正在尝试使用tf-idf来聚类类似的文档 . 我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起 . 问题是余弦相似性不满足三角不等式 . 因为在我的情况下,我不能在多个集群中拥有相同的向量,我必须将每个集群与一个共同的元素合并,这可能导致两个文档被分组在一起,即使它们彼此不相似 . 是否有另一种衡量两个文件相似性的方法,以便: 矢量分数根据其方向得分非常相似,无论其大小如...

热门问题