我想将具有相邻单词的句子标记为,如下所示:
“这是一个我不知情的样本字符串 . ”
在上面的例子中,有两种情况“samplestring”和“Iwanttotokenize”,其中出现相邻的单词 . 知道如何制作这些单词的标记吗?
对于这个句子,理想输出应该是(每行一个标记):这是我想要标记化的样本字符串
我建议使用像http://www.sil.org/linguistics/wordlists/english这样的单词列表 . 如果内存允许,将其打包成HashSet并使用函数contains()(针对散列比较进行优化)
首先,使用StringTokenizer对字符串进行标记化 . 对于每个令牌,检查它是否以列表中的单词开始和/或结束 . 如果它以该列表中的单词开头和结尾,并且没有字母,则在适当的位置在原始字符串中插入空格并再次标记 .
1 回答
我建议使用像http://www.sil.org/linguistics/wordlists/english这样的单词列表 . 如果内存允许,将其打包成HashSet并使用函数contains()(针对散列比较进行优化)
首先,使用StringTokenizer对字符串进行标记化 . 对于每个令牌,检查它是否以列表中的单词开始和/或结束 . 如果它以该列表中的单词开头和结尾,并且没有字母,则在适当的位置在原始字符串中插入空格并再次标记 .