我有一大堆文本(比如100或150个文件)和一个我想分析的新文本 . 我需要知道它是否在我的语料库中有任何文本的常用短语或部分短语(例如借用或依赖于共同来源) . 我不知道如何正确地完成这项任务,我开发了一个程序,我不能称之为非常聪明 .

  • 我(使用sed脚本)从我的文件中成对,三,四,五个连续的单词 . 所以,例如"threes"将是以下行的文件

word1 word2 word3

word2 word3 word4

word3 word4 word5 ...

其中word1,word2 ...是新文件的单词,所有新行都被删除 .

  • 我使用三个或四个(甚至五个)文件的行来从我的语料库中查找文件 . 然后我读了grep的输出来评估哪些短语可能是借款 .

所以,我的问题是,我怎样才能使这个程序更有效?显然,借款可能不是100%逐字,我事先不知道,借了多少字等 .

UPD:发现这个讨论,这似乎非常有用 .

What is a shell command to find the longest common substring of two strings in unix?