首页 文章

关于评论摘要的NLP项目

提问于
浏览
3

我打算在 Natural Language Processing (使用NLTK)上完成我的最后一年项目,我感兴趣的领域是 Comment Summarization from Social media websites ,比如Facebook . 例如,我试图做这样的事情:

随机Facebook评论图片:

  • 哇!美丽 .

  • 看起来真的很美 .

  • 很漂亮,漂亮的照片 .

现在,所有这些注释将被映射(使用基于模板的注释摘要技术),如下所示:

3 people find this picture to be "beautiful".

输出将包含单词 "beautiful" ,因为它在注释中比单词 "pretty" 更常用(以及美丽和漂亮是同义词的事实) . 为了完成此任务,我将使用跟踪 Keyword frequency 等方法和 Keyword Scores (在这种情况下,"Beautiful"和"Pretty"得分非常接近) . Is this the best way to do it?

到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:

该领域的其他哪些论文涉及类似问题?

除此之外,我还希望我的摘要工具能够改进每个摘要任务 . 如何在这方面应用 machine learning

1 回答

  • 8

    主题模型聚类是您正在寻找的 .

    在Google Scholars上搜索“主题模型群集”将为您提供有关主题模型群集的大量参考 .

    要理解它们,除了机器学习的基础知识之外,您还需要熟悉以下任务的方法 .

    • 聚类:余弦距离聚类,k均值聚类

    • 排名:PageRank,TF-IDF,互信息增益,最大边际相关性

相关问题