String arg = "The people working in @walman is not good";
PTBTokenizer<CoreLabel> ptbt = new PTBTokenizer<CoreLabel>(new StringReader(arg),
new CoreLabelTokenFactory(), "");
for (CoreLabel label; ptbt.hasNext(); ) {
label = ptbt.next();
System.out.println(label);
}
}
1 回答
这里唯一与NLP相关的部分是标记化 . 您应该将您的文本文件读入 Map (例如,如果是Java,则为
HashMap
),然后对于每个新句子,您应该对其进行标记(例如通过Stanford tokenizer),并检查每个标记是否在 Map 中显示;如果是,只需用 Map 中找到的值替换,如果不是,则不对此标记执行任何操作 .标记化的示例代码(取自上面的链接):
因此,
label.toString()
为您提供没有任何后缀的令牌 .