首页 文章
  • 19 votes
     answers
     views

    如何从R中的ngram标记列表中有效地删除停用词

    这是一种更好的方法,可以做一些我已经无法做到的事情: filter a series of n-gram tokens using "stop words" ,这样n-gram中任何停用词术语的出现都会触发删除 . 我非常希望有一个解决方案适用于unigrams和n-gram,虽然可以有两个版本,一个带有“固定”标志,另一个带有“正则表达式”标志 . 我将这个问题的两个方面放在...
  • 5 votes
     answers
     views

    使用Keras Tokenizer生成n-gram

    可以在Keras中使用n-gram吗? 例如,句子在X_train数据框中包含“句子”列 . 我以下列方式使用Keras的tokenizer: tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to_se...
  • 0 votes
     answers
     views

    用词汇词计算句子的概率

    我在英语语料库中训练了Ngram语言模型(unigram和bigram),并且我试图从不相交的语料库中计算句子的概率 . 例如,训练语料库由3个句子组成: 1: I, am, Sam 2: Sam, I, am 3: I, do, not, like, green, eggs, and, ham N = 14(语料库的长度) 对于unigram,我最终得出概率: Pr(“i”)=#(“i”)/ N...
  • 2 votes
     answers
     views

    在word2vec Gensim中获取bigrams和trigrams

    我目前在word2vec模型中使用uni-gram,如下所示 . def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, where each sentence is a list of words # #NLTK tokenize...
  • 4 votes
     answers
     views

    在Java 8中将令牌流映射到n-gram流

    我认为这是一个关于Java 8流的一个相当基本的问题,但我很难想到正确的搜索术语 . 所以我在这里问 . 我刚刚进入Java 8,所以请耐心等待 . 我想知道如何将标记流映射到n-gram流(表示为大小为n的标记数组) . 假设n = 3,那么我想转换下面的流 {1, 2, 3, 4, 5, 6, 7} 至 {[1, 2, 3], [2, 3, 4], [3, 4, 5], [4, 5, 6],...
  • 0 votes
     answers
     views

    如何从文本语料库中删除特定的单字组,但仍保留该单词的双字组?

    我有这样的情况,我必须从文本语料库中删除特定单词unigram,同时保持该单词的双字符以及该单词的单词 . 我试图将文本地址数据(excel中的列)与其他一些数字特征一起传递给分类算法 . 我需要对文本数据进行countvectorize并过滤掉特定的uni-gram并将它们附加回数据帧,以便分类器算法能够理解它 . ** sample data in Text Column** TAJ MAH...
  • 6 votes
     answers
     views

    Elasticsearch - EdgeNgram突出显示term_vector =错误突出显示

    当我使用带有edgengram的分析器(min = 3,max = 7,front)term_vector = with_positions_offsets 使用text =“CouchDB”的文档 当我搜索“couc”时 我的亮点是“cou”而不是“couc” 似乎我的亮点仅在于最小匹配令牌“cou”,而我希望在准确的令牌上(如果可能)或至少找到最长的令牌 . 它使用term_vector =...
  • 0 votes
     answers
     views

    Fuzzy包含使用elasticSearch的查询

    如何执行模糊和包含在字符串上的查询?假设我有以下文件: { ... "name":"william shakespeare" ... } 我想收到以下查询的文件: "William"(将返回所有威廉姆斯) "Willeam"(与1相同) "William Shake"(将仅返回包含&qu...
  • 1 votes
     answers
     views

    Applied NLP:如何根据多字词的词汇对文档进行评分?

    这可能是一个相当基本的NLP问题,但我手头有以下任务:我有一组文本文档,我需要根据一个(英语)词汇进行评分,这些词汇可以是1-,2-,3-等 N - 字长 . N 受到一些"reasonable"数字的限制,但字典中各种术语的分布对于 n = 1, ..., N 的各种值可能相当均匀 . 例如,该词典可以包含某种类型的设备列表,并且我想查看给定文档是否可能与这些设备中的任...
  • 0 votes
     answers
     views

    将N-gram模型与Bag of Word方法相结合

    我正在尝试使用带有一组训练数据的N-gram模型对攻击性和非攻击性句子进行分类 . 我想知道是否有任何方法可以将坏字典添加到n-gram模型中 . 我是机器学习的新手,最近开始了这个项目 . 如果上述方法不可行,我想知道这个问题的方法有哪些 . 提前致谢 .
  • 0 votes
     answers
     views

    查询elasticsearch以使所有分析的ngram标记匹配

    我使用nGram分析器(仅发出三克)来索引一些数据,以解决compound words problem exactly as described at the ES guide . 然而,这不会按预期工作:相应匹配查询将返回至少一个nGram-token(每个单词)匹配的所有文档 . 例: 让我们使用nGram分析器将这两个索引文档与单个字段一起使用: POST /compound_test/do...
  • 2 votes
     answers
     views

    如何在elasticsearch中获得单词三元组

    我一直在尝试使用elasticsearch tokenizers进行三元组 . 我已经按照http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-ngram-tokenizer.html和http://blog.qbox.io/multi-field-partial-word-autocomple...
  • 1 votes
     answers
     views

    ElasticSearch with Tire赢了't match nGrams on ' string ' search, only ' text'

    所以我一直在尝试将nGram匹配添加到我的ElasticSearch索引中,但我遇到了以下问题 . 执行标准 string 查询仅返回完全匹配 . 在特定测试字段上运行 match 查询会产生与预期相同的nGram匹配 . 我根据these(1) examples(2)为我的字段设置了nGram过滤器和分析器 . 映射代码如下: tire.settings :number_of_shards =&...
  • 2 votes
     answers
     views

    J2ME实现Trie(三元搜索树)

    我目前正在研究预测文本短信系统 . 我想使用TST数据结构和二元语法(基于当前键序列12键盘预测下一个可能的单词)来实现它 .目前我有一个语料库,并使用可用的应用程序来提出字典,二元组和频率 . 目前有以下问题: 在这种情况下,我可以找到J2ME TST实现或合适的Trie吗? (关于可用的TST特里的更详细解释可能很棒) 关于该项目方法的一般指导 注意:我已经看过类似的Trie实现,...
  • 0 votes
     answers
     views

    用gensim学习印刷双字母

    我想使用gensim从语料库中学习双字母组合,然后只打印学到的双字母组合 . 我没见过这样做的例子 . 帮助赞赏 from gensim.models import Phrases documents = ["the mayor of new york was there", "human computer interaction and machine learni...

热门问题