如果有图书馆根据内容将句子分成小块,我感兴趣 .
例如 .
输入:句子:“在我们入住酒店期间,我们有一个干净的房间,非常漂亮的浴室,窗外的壮丽景色和早上的美味早餐 . ”输出:句子段列表:[“在我们入住酒店期间”,“我们有一个干净的房间”,“非常漂亮的浴室”,“窗外的壮丽景色”,“早上的美味早餐 . ”]
所以基本上我正在寻找基于意义的句子边界检测/分割 . My goal is to take a sentence and separate it into bit of pieces that have their own 'meaning' without the rest of sentence.
我决不会对句子边界检测感兴趣,因为任何人都可以打十几个,但这对于句子分割不起作用 .
先感谢您
1 回答
在NLP文献中,从句子中获取短语的问题通常被称为“chunking” .
看起来你想要将一个句子分成几个块,这样每个单词都只有一个块 . 你可以使用 parser ,Stanford's这是一个很受欢迎的 . 它的输出,称为"parse tree",如下所示:
这里的大写字母是Penn Treebank tags . S表示"sentence",NP "noun phrase",VP "verb phrase",依此类推 . 通过从解析树中提取像VP和NP这样的短语单元,您可以构建类似于您请求的短语 .
这不完全是您所要求的,但根据您的应用程序,提取关键字短语(如"social security"或"foreign affairs")可能很有用 . 这有时被称为 keyphrase extraction . 我最近读到的关于该主题的一篇好文章是Bag of What?,并且实现可用here . 以下是基于美国政治的语料库输出(标记为NPSFT)的示例:
有很多技术可以分割这样的句子,具有不同程度的复杂性和准确性,最好的方法取决于你获得短语后想要做什么 . 无论如何,希望这会有所帮助 .