在文本文件中查找常用短语-Java 学习之路

我有一大堆文本（比如100或150个文件）和一个我想分析的新文本 . 我需要知道它是否在我的语料库中有任何文本的常用短语或部分短语（例如借用或依赖于共同来源） . 我不知道如何正确地完成这项任务，我开发了一个程序，我不能称之为非常聪明 .

word1 word2 word3

word2 word3 word4

word3 word4 word5 ...

其中word1，word2 ...是新文件的单词，所有新行都被删除 .

所以，我的问题是，我怎样才能使这个程序更有效？显然，借款可能不是100％逐字，我事先不知道，借了多少字等 .

UPD：发现这个讨论，这似乎非常有用 .

在文本文件中查找常用短语