Java 学习之路

19 votes

answers

views

如何从R中的ngram标记列表中有效地删除停用词

这是一种更好的方法，可以做一些我已经无法做到的事情： filter a series of n-gram tokens using "stop words" ，这样n-gram中任何停用词术语的出现都会触发删除 . 我非常希望有一个解决方案适用于unigrams和n-gram，虽然可以有两个版本，一个带有“固定”标志，另一个带有“正则表达式”标志 . 我将这个问题的两个方面放在...

r performance n-gram stop-words text-analysis
5 votes

answers

views

使用Keras Tokenizer生成n-gram

可以在Keras中使用n-gram吗？例如，句子在X_train数据框中包含“句子”列 . 我以下列方式使用Keras的tokenizer： tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to_se...

nlp keras tokenize text-processing n-gram
0 votes

answers

views

用词汇词计算句子的概率

我在英语语料库中训练了Ngram语言模型（unigram和bigram），并且我试图从不相交的语料库中计算句子的概率 . 例如，训练语料库由3个句子组成： 1: I, am, Sam 2: Sam, I, am 3: I, do, not, like, green, eggs, and, ham N = 14（语料库的长度）对于unigram，我最终得出概率： Pr（“i”）=＃（“i”）/ N...

python nlp probability n-gram
2 votes

answers

views

在word2vec Gensim中获取bigrams和trigrams

我目前在word2vec模型中使用uni-gram，如下所示 . def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, where each sentence is a list of words # #NLTK tokenize...

python tokenize word2vec gensim n-gram
4 votes

answers

views

在Java 8中将令牌流映射到n-gram流

我认为这是一个关于Java 8流的一个相当基本的问题，但我很难想到正确的搜索术语 . 所以我在这里问 . 我刚刚进入Java 8，所以请耐心等待 . 我想知道如何将标记流映射到n-gram流（表示为大小为n的标记数组） . 假设n = 3，那么我想转换下面的流 {1, 2, 3, 4, 5, 6, 7} 至 {[1, 2, 3], [2, 3, 4], [3, 4, 5], [4, 5, 6],...

java java-8 java-stream n-gram
0 votes

answers

views

如何从文本语料库中删除特定的单字组，但仍保留该单词的双字组？

我有这样的情况，我必须从文本语料库中删除特定单词unigram，同时保持该单词的双字符以及该单词的单词 . 我试图将文本地址数据（excel中的列）与其他一些数字特征一起传递给分类算法 . 我需要对文本数据进行countvectorize并过滤掉特定的uni-gram并将它们附加回数据帧，以便分类器算法能够理解它 . ** sample data in Text Column** TAJ MAH...

pandas scikit-learn nlp nltk n-gram
6 votes

answers

views

Elasticsearch - EdgeNgram突出显示term_vector =错误突出显示

当我使用带有edgengram的分析器（min = 3，max = 7，front）term_vector = with_positions_offsets 使用text =“CouchDB”的文档当我搜索“couc”时我的亮点是“cou”而不是“couc” 似乎我的亮点仅在于最小匹配令牌“cou”，而我希望在准确的令牌上（如果可能）或至少找到最长的令牌 . 它使用term_vector =...

java search lucene elasticsearch n-gram
0 votes

answers

views

Fuzzy包含使用elasticSearch的查询

如何执行模糊和包含在字符串上的查询？假设我有以下文件： { ... "name":"william shakespeare" ... } 我想收到以下查询的文件： "William"（将返回所有威廉姆斯） "Willeam"（与1相同） "William Shake"（将仅返回包含&qu...

elasticsearch fuzzy-search n-gram elasticsearch-2.0 nosql
1 votes

answers

views

Applied NLP：如何根据多字词的词汇对文档进行评分？

这可能是一个相当基本的NLP问题，但我手头有以下任务：我有一组文本文档，我需要根据一个（英语）词汇进行评分，这些词汇可以是1-，2-，3-等 N - 字长 . N 受到一些"reasonable"数字的限制，但字典中各种术语的分布对于 n = 1, ..., N 的各种值可能相当均匀 . 例如，该词典可以包含某种类型的设备列表，并且我想查看给定文档是否可能与这些设备中的任...

nlp matching n-gram scoring lexicon
0 votes

answers

views

将N-gram模型与Bag of Word方法相结合

我正在尝试使用带有一组训练数据的N-gram模型对攻击性和非攻击性句子进行分类 . 我想知道是否有任何方法可以将坏字典添加到n-gram模型中 . 我是机器学习的新手，最近开始了这个项目 . 如果上述方法不可行，我想知道这个问题的方法有哪些 . 提前致谢 .

machine-learning sentiment-analysis n-gram
0 votes

answers

views

查询elasticsearch以使所有分析的ngram标记匹配

我使用nGram分析器（仅发出三克）来索引一些数据，以解决compound words problem exactly as described at the ES guide . 然而，这不会按预期工作：相应匹配查询将返回至少一个nGram-token（每个单词）匹配的所有文档 . 例：让我们使用nGram分析器将这两个索引文档与单个字段一起使用： POST /compound_test/do...

elasticsearch tokenize n-gram
2 votes

answers

views

如何在elasticsearch中获得单词三元组

我一直在尝试使用elasticsearch tokenizers进行三元组 . 我已经按照http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-ngram-tokenizer.html和http://blog.qbox.io/multi-field-partial-word-autocomple...

curl lucene elasticsearch n-gram
1 votes

answers

views

ElasticSearch with Tire赢了't match nGrams on ' string ' search, only ' text'

所以我一直在尝试将nGram匹配添加到我的ElasticSearch索引中，但我遇到了以下问题 . 执行标准 string 查询仅返回完全匹配 . 在特定测试字段上运行 match 查询会产生与预期相同的nGram匹配 . 我根据these(1) examples(2)为我的字段设置了nGram过滤器和分析器 . 映射代码如下： tire.settings :number_of_shards =&...

ruby-on-rails elasticsearch tire n-gram
2 votes

answers

views

J2ME实现Trie（三元搜索树）

我目前正在研究预测文本短信系统 . 我想使用TST数据结构和二元语法（基于当前键序列12键盘预测下一个可能的单词）来实现它 .目前我有一个语料库，并使用可用的应用程序来提出字典，二元组和频率 . 目前有以下问题：在这种情况下，我可以找到J2ME TST实现或合适的Trie吗？（关于可用的TST特里的更详细解释可能很棒）关于该项目方法的一般指导注意：我已经看过类似的Trie实现，...

java-me trie n-gram ternary-search-tree
0 votes

answers

views

用gensim学习印刷双字母

我想使用gensim从语料库中学习双字母组合，然后只打印学到的双字母组合 . 我没见过这样做的例子 . 帮助赞赏 from gensim.models import Phrases documents = ["the mayor of new york was there", "human computer interaction and machine learni...

python gensim n-gram topic-modeling phrase

热门问题