首页 文章

NLP:句子分割/边界检测

提问于
浏览
2

如果有图书馆根据内容将句子分成小块,我感兴趣 .

例如 .

输入:句子:“在我们入住酒店期间,我们有一个干净的房间,非常漂亮的浴室,窗外的壮丽景色和早上的美味早餐 . ”输出:句子段列表:[“在我们入住酒店期间”,“我们有一个干净的房间”,“非常漂亮的浴室”,“窗外的壮丽景色”,“早上的美味早餐 . ”]

所以基本上我正在寻找基于意义的句子边界检测/分割 . My goal is to take a sentence and separate it into bit of pieces that have their own 'meaning' without the rest of sentence.

我决不会对句子边界检测感兴趣,因为任何人都可以打十几个,但这对于句子分割不起作用 .

先感谢您

1 回答

  • 2

    在NLP文献中,从句子中获取短语的问题通常被称为“chunking” .

    看起来你想要将一个句子分成几个块,这样每个单词都只有一个块 . 你可以使用 parserStanford's这是一个很受欢迎的 . 它的输出,称为"parse tree",如下所示:

    (ROOT
      (S
        (S
          (NP
            (NP (DT The) (JJS strongest) (NN rain))
            (VP
              (ADVP (RB ever))
              (VBN recorded)
              (PP (IN in)
                (NP (NNP India)))))
          (VP
            (VP (VBD shut)
              (PRT (RP down))
              (NP
                (NP (DT the) (JJ financial) (NN hub))
                (PP (IN of)
                  (NP (NNP Mumbai)))))
    [rest omitted]
    

    这里的大写字母是Penn Treebank tags . S表示"sentence",NP "noun phrase",VP "verb phrase",依此类推 . 通过从解析树中提取像VP和NP这样的短语单元,您可以构建类似于您请求的短语 .

    这不完全是您所要求的,但根据您的应用程序,提取关键字短语(如"social security"或"foreign affairs")可能很有用 . 这有时被称为 keyphrase extraction . 我最近读到的关于该主题的一篇好文章是Bag of What?,并且实现可用here . 以下是基于美国政治的语料库输出(标记为NPSFT)的示例:

    Sample Bag of What? output

    有很多技术可以分割这样的句子,具有不同程度的复杂性和准确性,最好的方法取决于你获得短语后想要做什么 . 无论如何,希望这会有所帮助 .

相关问题