首页 文章
  • 3 votes
     answers
     views

    NLP中的英文单词分词?

    我是NLP领域的新手,但我目前的研究需要从URL地址进行一些文本解析(或称为关键字提取),例如:一个虚假的URL, http://ads.goole.com/appid/heads 我的解析有两个约束, 第一个“广告”和最后一个“头”应该是不同的,因为“头”中的“广告”意味着更多的后缀而不是广告 . “appid”可以解析为两部分;这就是'app'和'id',它们都在互联网中具有语义含义...
  • 5 votes
     answers
     views

    文本分割:基于字典的单词拆分[关闭]

    背景 将数据库列名拆分为等效的英文文本以生成数据字典 . 英语词典是从公司文档,维基和电子邮件的语料库中创建的 . 字典( lexicon.csv )是包含单词和概率的CSV文件 . 因此,有人写“_1485630”这个词(在电子邮件或维基页面上)的次数越多,"therapistname"分裂为"therapist name"的可能性就越高,而不是其他东西 ...
  • 7 votes
     answers
     views

    使用NLP进行句子检测

    我试图解析大量文本中的句子 . 使用java我开始使用OpenPLP和Stanford的Parser等NLP工具 . 但这里是我被卡住的地方 . 虽然这两种解析器都非常棒,但它们在非统一文本方面却失败了 . 例如,在我的文本中,大多数句子都是以句点分隔的,但在某些情况下,例如子弹点则不是 . 这两个解析都失败了 . 我甚至尝试在stanford解析中为多个句子终结符设置选项,但输出并没有好多少! ...
  • 4 votes
     answers
     views

    检查是否可以进行分词

    这是this response以及用户发布的伪代码算法的后续问题 . 我没有需要实际拆分字符串 . 这是相关问题的回复: 设S [1..length(w)]是一个带有布尔条目的表 . 如果可以拆分单词w [1..i],则S [i]为真 . 然后设置S [1] = isWord(w [1])并且对于i = 2到长度(w),计算S [i] =(isWord [w [1..i]或者对于{2..i中的任...
  • 2 votes
     answers
     views

    NLP:句子分割/边界检测

    如果有图书馆根据内容将句子分成小块,我感兴趣 . 例如 . 输入:句子:“在我们入住酒店期间,我们有一个干净的房间,非常漂亮的浴室,窗外的壮丽景色和早上的美味早餐 . ”输出:句子段列表:[“在我们入住酒店期间”,“我们有一个干净的房间”,“非常漂亮的浴室”,“窗外的壮丽景色”,“早上的美味早餐 . ”] 所以基本上我正在寻找基于意义的句子边界检测/分割 . My goal is to t...
  • 6 votes
     answers
     views

    将HTML解析为句子 - 如何处理表/列表/ Headers /等?

    你如何将带有自由文本,列表,表格, Headers 等的HTML页面解析成句子? 以this wikipedia page为例 . 有/是: 自由文本:http://en.wikipedia.org/wiki/Neurotransmitter#Discovery 列表:http://en.wikipedia.org/wiki/Neurotransmitter#Actions 表:htt...
  • 476 votes
     answers
     views

    如何将字符串拆分为列表?

    我希望我的Python函数分割一个句子(输入)并将每个单词存储在一个列表中 . 我当前的代码拆分了句子,但没有将单词存储为列表 . 我怎么做? def split_line(text): # split the text words = text.split() # for each word in the line: for word in words: ...

热门问题