我打算在 Natural Language Processing (使用NLTK)上完成我的最后一年项目,我感兴趣的领域是 Comment Summarization from Social media websites ,比如Facebook . 例如,我试图做这样的事情:
随机Facebook评论图片:
-
哇!美丽 .
-
看起来真的很美 .
-
很漂亮,漂亮的照片 .
现在,所有这些注释将被映射(使用基于模板的注释摘要技术),如下所示:
3 people find this picture to be "beautiful".
输出将包含单词 "beautiful" ,因为它在注释中比单词 "pretty" 更常用(以及美丽和漂亮是同义词的事实) . 为了完成此任务,我将使用跟踪 Keyword frequency 等方法和 Keyword Scores (在这种情况下,"Beautiful"和"Pretty"得分非常接近) . Is this the best way to do it?
到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:
该领域的其他哪些论文涉及类似问题?
除此之外,我还希望我的摘要工具能够改进每个摘要任务 . 如何在这方面应用 machine learning ?
1 回答
主题模型聚类是您正在寻找的 .
在Google Scholars上搜索“主题模型群集”将为您提供有关主题模型群集的大量参考 .
要理解它们,除了机器学习的基础知识之外,您还需要熟悉以下任务的方法 .
聚类:余弦距离聚类,k均值聚类
排名:PageRank,TF-IDF,互信息增益,最大边际相关性