首页 文章

是否有任何基于Java的智能单词标记器可以在句子中生成相邻单词的标记?

提问于
浏览
3

我想将具有相邻单词的句子标记为,如下所示:

“这是一个我不知情的样本字符串 . ”

在上面的例子中,有两种情况“samplestring”和“Iwanttotokenize”,其中出现相邻的单词 . 知道如何制作这些单词的标记吗?

对于这个句子,理想输出应该是(每行一个标记):这是我想要标记化的样本字符串

1 回答

  • 1

    我建议使用像http://www.sil.org/linguistics/wordlists/english这样的单词列表 . 如果内存允许,将其打包成HashSet并使用函数contains()(针对散列比较进行优化)

    首先,使用StringTokenizer对字符串进行标记化 . 对于每个令牌,检查它是否以列表中的单词开始和/或结束 . 如果它以该列表中的单词开头和结尾,并且没有字母,则在适当的位置在原始字符串中插入空格并再次标记 .

相关问题