-
0 votesanswersviews
查询elasticsearch以使所有分析的ngram标记匹配
我使用nGram分析器(仅发出三克)来索引一些数据,以解决compound words problem exactly as described at the ES guide . 然而,这不会按预期工作:相应匹配查询将返回至少一个nGram-token(每个单词)匹配的所有文档 . 例: 让我们使用nGram分析器将这两个索引文档与单个字段一起使用: POST /compound_test/do... -
0 votesanswersviews
如何使用Python正确读取PPM文件
这是我的总体说明 使用0到255范围内的整数值编写一个表示RGB颜色的Color类 . 您的类必须:放在image.py中提供一个构造函数,它接受来自客户端和存储的红色,绿色和蓝色通道的值这些值提供返回红色,绿色和蓝色通道值的公共方法 编写一个表示PPM图像的PortablePixmap类 . 您的类必须:置于image.py中提供一个构造函数,该构造函数接受来自客户端的幻数,宽度,高度,最大颜色... -
5 votesanswersviews
使用Keras Tokenizer生成n-gram
可以在Keras中使用n-gram吗? 例如,句子在X_train数据框中包含“句子”列 . 我以下列方式使用Keras的tokenizer: tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to_se... -
3 votesanswersviews
带有“&”的同义词过滤器在弹性搜索中不起作用建议使用标准标记器
我的目标是,如果我有 "s & p indices" 索引的内容,如果用户搜索 s and p , s & p 或 s p ,我也可以建议这样做 . 然而,似乎有一些特殊的关于&,因为下面的同义词设置不起作用 . 我有 suggest index 的下面的映射 . { "settings": { "analysis&qu... -
0 votesanswersviews
输入系统,用户输入对象的数组位置,后跟#到indiacte数量,但它给我一个错误
这是一个小吃店计划! public void sale() { if (!ingredients.isEmpty()) { printFood(); String choice = JOptionPane.showInputDialog("Enter Your choices seperatad by a # to indi... -
1 votesanswersviews
如何使用.net在MVC(模型视图控制器)中实现基于令牌的身份验证?
我想了解基于令牌的身份验证的含义 . 我搜索了互联网,但找不到任何可以理解的东西 . How to implement the token based authentication in the MVC using c#? Steps to implement the token based authentication in MVC 5. Tokenization in MVC MVC5意味着(... -
5 votesanswersviews
在程序中一起使用getline和strtok的问题
在下面的程序中,我打算将文件中的每一行读成一个字符串,分解字符串并显示单个单词 . 我面临的问题是,程序现在只输出文件中的第一行 . 我不明白为什么会这样? #include<iostream> #include<string> #include<fstream> #include<cstdio> using namespace std; int ... -
1 votesanswersviews
如何用C中的换行符解析字符串?
我正在写一个shell,我正在使用getline()和键盘中的stdin来接受命令 . 我虽然难以对输入进行标记 . 我尝试在strtok()函数中使用\ n作为分隔符,但似乎没有工作 . 例如,我包含一个if语句来检查用户是否键入“exit”,在这种情况下它将终止程序 . 它没有终止 . 这是我正在使用的代码: void main() { int ShInUse = 1; char *UserC... -
0 votesanswersviews
指针算术的问题 - 尝试标记输入字符串
目前我正在开发一个程序,允许用户输入一个字符串然后进行标记化,然后使用指针数组将标记打印到屏幕上 . 通过调用我的tokenize函数来“执行”这个操作,该函数读取输入字符串直到第一个分隔符('',',',' . ','?','!') . 然后它将我的字符串中的分隔符更改为NULL char . 然后它应该返回一个指向我的字符串中的下一个字符的指针 . 在输入字符串之后的main中,它应该继续调用... -
0 votesanswersviews
加速从语料库中构建令牌计数
我有一个大型语料库,它来自对应于县的161行的csv,如下所示: place_aggregated_listings[['titles', 'descriptions']].to_csv(r'./place_aggregated_listings.txt', header=None, index=None, sep=' ', mode='a' ) corpus = nltk.corpus.rea... -
1 votesanswersviews
如何在java中标记输入文件
我正在用java标记文本文件 . 我想读取一个输入文件,对其进行标记,然后将已标记的某个字符写入输出文件 . 这是我到目前为止所做的: package org.apache.lucene.analysis; import java.io.*; class StringProcessing { // Create BufferedReader class instance... -
1 votesanswersviews
XSLT标记了一个跨子元素分布的字符串
我觉得那里有一个明显的解决方案,但我想不出来 . 使用XSLT 2.0我想要标记一个跨子元素分布的字符串,所以就像这样 <line> <font style="big"> <text color="blue">wha</text> </font> <fo... -
1 votesanswersviews
XSLT分析字符串和标记正确用法
我正在尝试分析一些巨大的字符串,我在XSLT中使用了两种不同的方法(一种叫做tokenize,另一种叫做analyze string) . 假设我有以下字符串: var ActivitiesData = [{"method": {"name": "Bras", "val": "Vegas"}, ... -
0 votesanswersviews
UnicodeDecodeError:'ascii' codec无法解码位置5中的字节0xc3:序数不在范围内(128)
我目前正在编写一个利用Python NLTK库来确定评论是正面还是负面的程序 . 当尝试将每个单词标记化并存储在数组中时,我不断收到上述错误 . 错误行之前和之前的代码行是: from nltk.tokenize import word_tokenize ... short_pos = open("reviews/pos_reviews.txt", "r"... -
0 votesanswersviews
使用SentencePiece进行标记化[暂停]
我已经读过SentencePiece python包装器可以标记单词 . 是否有任何示例显示如何使用SentencePiece进行单词标记化? -
1 votesanswersviews
对来自getline的输入进行标记
我正在尝试使用getline()从键盘获取输入,将其存储在字符串中,对其进行标记,然后打印标记 . 当我运行它时,我在最后一次迭代(处理来自输入的最后一个令牌的迭代)上得到一个Segmentation Fault错误 . #define _POSIX_C_SOURCE 200809L #include <stdio.h> #include <stdlib.h> #inclu... -
380 votesanswersviews
如何在C中标记字符串?
Java有一个方便的拆分方法: String str = "The quick brown fox"; String[] results = str.split(" "); 在C中有一个简单的方法吗? -
88 votesanswersviews
如何使用NLTK tokenizer摆脱标点符号?
我很清楚如何从文本中获取单词列表 . 如果我使用 nltk.word_tokenize() ,我会得到一个单词和标点符号列表 . 我只需要单词代替 . 我怎样才能摆脱标点符号?此外 word_tokenize 不适用于多个句子:点被添加到最后一个单词 . -
0 votesanswersviews
拆分用R和Quanteda标记语料库
我正在为NLP开展一个项目 . 我需要在.txt文件中获取一些博客,新闻和推文(您可能已经听说过这个顶点)并创建n-gram频率 . 我做了一些实验,将 txt 文件带到频率 data frame 进行分析: Read > Conver to corpus > Clean corpus > Tokenize > Convert to dfm > Convert to ... -
2 votesanswersviews
在word2vec Gensim中获取bigrams和trigrams
我目前在word2vec模型中使用uni-gram,如下所示 . def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, where each sentence is a list of words # #NLTK tokenize... -
3 votesanswersviews
是否有任何基于Java的智能单词标记器可以在句子中生成相邻单词的标记?
我想将具有相邻单词的句子标记为,如下所示: “这是一个我不知情的样本字符串 . ” 在上面的例子中,有两种情况“samplestring”和“Iwanttotokenize”,其中出现相邻的单词 . 知道如何制作这些单词的标记吗? 对于这个句子,理想输出应该是(每行一个标记):这是我想要标记化的样本字符串 -
6 votesanswersviews
令牌化模块中的Python 2换行标记
我在Python中使用 tokenize 模块并想知道为什么有2个不同的换行符: NEWLINE = 4 NL = 54 任何产生两个令牌的代码示例都将受到赞赏 . -
0 votesanswersviews
在java中标记字符串后删除停用词
我想在标记字符串后删除停用词 . 我有外部文件.txt并读取它然后将它与标记化的字符串进行比较 . 如果标记化的单词与停用词相等,则将其删除 . 这是令牌化的代码 try{ while ((msg =readBufferData.readLine()) != null) { int numberOfTokens; ... -
10 votesanswersviews
Tokenizer与令牌过滤器
我正在尝试使用Elasticsearch实现自动完成,因为我知道如何做到这一点...... 我正在尝试使用ES的edge_n_grams Build 多字(短语)建议,同时索引已爬网数据 . tokenizer 和 token_filter 之间的区别是什么 - 我已经阅读了关于这些的文档,但仍然需要对它们有更多的了解.... 例如,ES是用来搜索用户输入的token_filter吗?是一个令牌化... -
1 votesanswersviews
令牌化Python源文件时的令牌名称和关键字(在Python中)
在this answer之后,我试图获取Python源文件的所有令牌信息(即令牌的确切名称,值和位置),如下所示 . # Python source file import os class Test(): """ This class holds latitude, longitude, depth and magnitude data. ...