Java 学习之路

3 votes

answers

views

NLP中的英文单词分词？

我是NLP领域的新手，但我目前的研究需要从URL地址进行一些文本解析（或称为关键字提取），例如：一个虚假的URL， http://ads.goole.com/appid/heads 我的解析有两个约束，第一个“广告”和最后一个“头”应该是不同的，因为“头”中的“广告”意味着更多的后缀而不是广告 . “appid”可以解析为两部分;这就是'app'和'id'，它们都在互联网中具有语义含义...

web nlp text-segmentation
5 votes

answers

views

文本分割：基于字典的单词拆分[关闭]

背景将数据库列名拆分为等效的英文文本以生成数据字典 . 英语词典是从公司文档，维基和电子邮件的语料库中创建的 . 字典（ lexicon.csv ）是包含单词和概率的CSV文件 . 因此，有人写“_1485630”这个词（在电子邮件或维基页面上）的次数越多，"therapistname"分裂为"therapist name"的可能性就越高，而不是其他东西 ...

java nlp data-dictionary text-segmentation
7 votes

answers

views

使用NLP进行句子检测

我试图解析大量文本中的句子 . 使用java我开始使用OpenPLP和Stanford的Parser等NLP工具 . 但这里是我被卡住的地方 . 虽然这两种解析器都非常棒，但它们在非统一文本方面却失败了 . 例如，在我的文本中，大多数句子都是以句点分隔的，但在某些情况下，例如子弹点则不是 . 这两个解析都失败了 . 我甚至尝试在stanford解析中为多个句子终结符设置选项，但输出并没有好多少！ ...

java nlp opennlp text-segmentation
4 votes

answers

views

检查是否可以进行分词

这是this response以及用户发布的伪代码算法的后续问题 . 我没有需要实际拆分字符串 . 这是相关问题的回复：设S [1..length（w）]是一个带有布尔条目的表 . 如果可以拆分单词w [1..i]，则S [i]为真 . 然后设置S [1] = isWord（w [1]）并且对于i = 2到长度（w），计算S [i] =（isWord [w [1..i]或者对于{2..i中的任...

python algorithm nlp dynamic-programming text-segmentation
2 votes

answers

views

NLP：句子分割/边界检测

如果有图书馆根据内容将句子分成小块，我感兴趣 . 例如 . 输入：句子：“在我们入住酒店期间，我们有一个干净的房间，非常漂亮的浴室，窗外的壮丽景色和早上的美味早餐 . ”输出：句子段列表：[“在我们入住酒店期间”，“我们有一个干净的房间”，“非常漂亮的浴室”，“窗外的壮丽景色”，“早上的美味早餐 . ”] 所以基本上我正在寻找基于意义的句子边界检测/分割 . My goal is to t...

nlp nltk sentence text-segmentation
6 votes

answers

views

将HTML解析为句子 - 如何处理表/列表/ Headers /等？

你如何将带有自由文本，列表，表格， Headers 等的HTML页面解析成句子？以this wikipedia page为例 . 有/是：自由文本：http://en.wikipedia.org/wiki/Neurotransmitter#Discovery 列表：http://en.wikipedia.org/wiki/Neurotransmitter#Actions 表：htt...

python html nlp nltk text-segmentation
476 votes

answers

views

如何将字符串拆分为列表？

我希望我的Python函数分割一个句子（输入）并将每个单词存储在一个列表中 . 我当前的代码拆分了句子，但没有将单词存储为列表 . 我怎么做？ def split_line(text): # split the text words = text.split() # for each word in the line: for word in words: ...

python list split text-segmentation

NLP中的英文单词分词？

文本分割：基于字典的单词拆分[关闭]

使用NLP进行句子检测

检查是否可以进行分词

NLP：句子分割/边界检测

将HTML解析为句子 - 如何处理表/列表/ Headers /等？

如何将字符串拆分为列表？

热门问题