假设我在关系表中用列表示了大量文档
ID (unique identifier)
Title (255 characters)
Description (5000 characters)
Category (predefined meta-data )
Additional Notes (1000 characters )
我想为文档表中的每一行添加一个或多个标签 . 这里的标签指的是一个单词或一组单词,告诉读者文档的内容 .
是否有任何数据挖掘/文本挖掘/机器学习技术或方法可以帮助我在没有人为干扰的情况下为给定文档找到最合适的标签 .
1 回答
一种简单的可能方法:对于给定的文档,计算每个单词的TF-IDF度量,并选择前N个单词作为标签(或按某个阈值切割候选者) . 同样在你的情况下,对 Headers 和类别字段中的单词使用经验提升系数是合理的 .