首页 文章

使用PHP在多个条目中查找剽窃的可能性

提问于
浏览
3

我正在开发一个跟踪帮助台条目的Web应用程序 . 我们希望找到一种方法来阻止人们复制和粘贴关于常见问题的注释 - 我们希望为每次调用问题编写原始的帮助台条目 .

无论如何,我们有成千上万的条目,其中一些是相似的,我试图找到一种方法将它们全部比较,并指出任何与其他条目非常相似的条目,即80%可能是直接拷贝等

我已经研究过similar_text()和其他一些内置的PHP函数,但我很想听听其他人是否曾做过类似的事情 . 我不相信我可以有效地使用similar_text()因为我需要相互比较多个条目,而不是两个字符串 .

任何输入都表示赞赏 .

3 回答

  • 0

    我认为similar_text()会做你想要的 . 只要你的机器有足够的内存来处理比较,它应该可以正常工作 . 另请参阅levenshtein()和soundex() .

  • 0

    您可能需要考虑尝试使用Solr数据库 . 虽然您的最终架构可能包含许多不同的字段,但主字段的类型为“text”,并且将包含帮助台条目的文本 . 默认的Solr架构(不需要修改)会自动对文本字段中的数据进行标记,对数据进行索引,以便找到搜索同义词,“城市”将匹配“城市”等 .

    最后,使用Solr,从性能角度和功能角度来看,您最终都将获得可扩展的解决方案 .

  • 0

    首先,你为什么关心?如果这是一个可以通过复制和粘贴来回复的常见问题,为什么这不是正确的做法?听起来你为了工作会产生更多的工作 .

    第二关,你可以看看像:http://en.wikipedia.org/wiki/W-shingling

    如果此处提供的其他选项不够 .

相关问题