Java 学习之路

0 votes

answers

views

查询elasticsearch以使所有分析的ngram标记匹配

我使用nGram分析器（仅发出三克）来索引一些数据，以解决compound words problem exactly as described at the ES guide . 然而，这不会按预期工作：相应匹配查询将返回至少一个nGram-token（每个单词）匹配的所有文档 . 例：让我们使用nGram分析器将这两个索引文档与单个字段一起使用： POST /compound_test/do...

elasticsearch tokenize n-gram
0 votes

answers

views

如何使用Python正确读取PPM文件

这是我的总体说明使用0到255范围内的整数值编写一个表示RGB颜色的Color类 . 您的类必须：放在image.py中提供一个构造函数，它接受来自客户端和存储的红色，绿色和蓝色通道的值这些值提供返回红色，绿色和蓝色通道值的公共方法编写一个表示PPM图像的PortablePixmap类 . 您的类必须：置于image.py中提供一个构造函数，该构造函数接受来自客户端的幻数，宽度，高度，最大颜色...

python tokenize ppm
5 votes

answers

views

使用Keras Tokenizer生成n-gram

可以在Keras中使用n-gram吗？例如，句子在X_train数据框中包含“句子”列 . 我以下列方式使用Keras的tokenizer： tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to_se...

nlp keras tokenize text-processing n-gram
3 votes

answers

views

带有“＆”的同义词过滤器在弹性搜索中不起作用建议使用标准标记器

我的目标是，如果我有 "s & p indices" 索引的内容，如果用户搜索 s and p ， s & p 或 s p ，我也可以建议这样做 . 然而，似乎有一些特殊的关于＆，因为下面的同义词设置不起作用 . 我有 suggest index 的下面的映射 . { "settings": { "analysis&qu...

elasticsearch tokenize autosuggest
0 votes

answers

views

输入系统，用户输入对象的数组位置，后跟＃到indiacte数量，但它给我一个错误

这是一个小吃店计划！ public void sale() { if (!ingredients.isEmpty()) { printFood(); String choice = JOptionPane.showInputDialog("Enter Your choices seperatad by a # to indi...

java string parsing tokenize numberformatexception
1 votes

answers

views

如何使用.net在MVC（模型视图控制器）中实现基于令牌的身份验证？

我想了解基于令牌的身份验证的含义 . 我搜索了互联网，但找不到任何可以理解的东西 . How to implement the token based authentication in the MVC using c#? Steps to implement the token based authentication in MVC 5. Tokenization in MVC MVC5意味着（...

security authentication tokenize
5 votes

answers

views

在程序中一起使用getline和strtok的问题

在下面的程序中，我打算将文件中的每一行读成一个字符串，分解字符串并显示单个单词 . 我面临的问题是，程序现在只输出文件中的第一行 . 我不明白为什么会这样？ #include<iostream> #include<string> #include<fstream> #include<cstdio> using namespace std; int ...

c++ string tokenize strtok
1 votes

answers

views

如何用C中的换行符解析字符串？

我正在写一个shell，我正在使用getline（）和键盘中的stdin来接受命令 . 我虽然难以对输入进行标记 . 我尝试在strtok（）函数中使用\ n作为分隔符，但似乎没有工作 . 例如，我包含一个if语句来检查用户是否键入“exit”，在这种情况下它将终止程序 . 它没有终止 . 这是我正在使用的代码： void main() { int ShInUse = 1; char *UserC...

c token tokenize strtok
0 votes

answers

views

指针算术的问题 - 尝试标记输入字符串

目前我正在开发一个程序，允许用户输入一个字符串然后进行标记化，然后使用指针数组将标记打印到屏幕上 . 通过调用我的tokenize函数来“执行”这个操作，该函数读取输入字符串直到第一个分隔符（''，'，'，' . '，'？'，'！'） . 然后它将我的字符串中的分隔符更改为NULL char . 然后它应该返回一个指向我的字符串中的下一个字符的指针 . 在输入字符串之后的main中，它应该继续调用...

c string pointers tokenize pointer-arithmetic
0 votes

answers

views

加速从语料库中构建令牌计数

我有一个大型语料库，它来自对应于县的161行的csv，如下所示： place_aggregated_listings[['titles', 'descriptions']].to_csv(r'./place_aggregated_listings.txt', header=None, index=None, sep=' ', mode='a' ) corpus = nltk.corpus.rea...

pandas nlp tokenize
1 votes

answers

views

如何在java中标记输入文件

我正在用java标记文本文件 . 我想读取一个输入文件，对其进行标记，然后将已标记的某个字符写入输出文件 . 这是我到目前为止所做的： package org.apache.lucene.analysis; import java.io.*; class StringProcessing { // Create BufferedReader class instance...

java tokenize
1 votes

answers

views

XSLT标记了一个跨子元素分布的字符串

我觉得那里有一个明显的解决方案，但我想不出来 . 使用XSLT 2.0我想要标记一个跨子元素分布的字符串，所以就像这样 <line> <font style="big"> <text color="blue">wha</text> </font> <fo...

xslt text xslt-2.0 children tokenize
1 votes

answers

views

XSLT分析字符串和标记正确用法

我正在尝试分析一些巨大的字符串，我在XSLT中使用了两种不同的方法（一种叫做tokenize，另一种叫做analyze string） . 假设我有以下字符串： var ActivitiesData = [{"method": {"name": "Bras", "val": "Vegas"}, ...

xslt xslt-1.0 xslt-2.0 tokenize
0 votes

answers

views

UnicodeDecodeError：'ascii' codec无法解码位置5中的字节0xc3：序数不在范围内（128）

我目前正在编写一个利用Python NLTK库来确定评论是正面还是负面的程序 . 当尝试将每个单词标记化并存储在数组中时，我不断收到上述错误 . 错误行之前和之前的代码行是： from nltk.tokenize import word_tokenize ... short_pos = open("reviews/pos_reviews.txt", "r&quot...

python nltk tokenize
0 votes

answers

views

使用SentencePiece进行标记化[暂停]

我已经读过SentencePiece python包装器可以标记单词 . 是否有任何示例显示如何使用SentencePiece进行单词标记化？

python-3.x tokenize
1 votes

answers

views

对来自getline的输入进行标记

我正在尝试使用getline（）从键盘获取输入，将其存储在字符串中，对其进行标记，然后打印标记 . 当我运行它时，我在最后一次迭代（处理来自输入的最后一个令牌的迭代）上得到一个Segmentation Fault错误 . #define _POSIX_C_SOURCE 200809L #include <stdio.h> #include <stdlib.h> #inclu...

c string token tokenize strtok
380 votes

answers

views

如何在C中标记字符串？

Java有一个方便的拆分方法： String str = "The quick brown fox"; String[] results = str.split(" "); 在C中有一个简单的方法吗？

c++ string split tokenize
88 votes

answers

views

如何使用NLTK tokenizer摆脱标点符号？

我很清楚如何从文本中获取单词列表 . 如果我使用 nltk.word_tokenize() ，我会得到一个单词和标点符号列表 . 我只需要单词代替 . 我怎样才能摆脱标点符号？此外 word_tokenize 不适用于多个句子：点被添加到最后一个单词 .

python nlp tokenize nltk
0 votes

answers

views

拆分用R和Quanteda标记语料库

我正在为NLP开展一个项目 . 我需要在.txt文件中获取一些博客，新闻和推文（您可能已经听说过这个顶点）并创建n-gram频率 . 我做了一些实验，将 txt 文件带到频率 data frame 进行分析： Read > Conver to corpus > Clean corpus > Tokenize > Convert to dfm > Convert to ...

r nlp tokenize corpus quanteda
2 votes

answers

views

在word2vec Gensim中获取bigrams和trigrams

我目前在word2vec模型中使用uni-gram，如下所示 . def review_to_sentences( review, tokenizer, remove_stopwords=False ): #Returns a list of sentences, where each sentence is a list of words # #NLTK tokenize...

python tokenize word2vec gensim n-gram
3 votes

answers

views

是否有任何基于Java的智能单词标记器可以在句子中生成相邻单词的标记？

我想将具有相邻单词的句子标记为，如下所示： “这是一个我不知情的样本字符串 . ” 在上面的例子中，有两种情况“samplestring”和“Iwanttotokenize”，其中出现相邻的单词 . 知道如何制作这些单词的标记吗？对于这个句子，理想输出应该是（每行一个标记）：这是我想要标记化的样本字符串

java tokenize
6 votes

answers

views

令牌化模块中的Python 2换行标记

我在Python中使用 tokenize 模块并想知道为什么有2个不同的换行符： NEWLINE = 4 NL = 54 任何产生两个令牌的代码示例都将受到赞赏 .

python tokenize
0 votes

answers

views

在java中标记字符串后删除停用词

我想在标记字符串后删除停用词 . 我有外部文件.txt并读取它然后将它与标记化的字符串进行比较 . 如果标记化的单词与停用词相等，则将其删除 . 这是令牌化的代码 try{ while ((msg =readBufferData.readLine()) != null) { int numberOfTokens; ...

java tokenize stop-words
10 votes

answers

views

Tokenizer与令牌过滤器

我正在尝试使用Elasticsearch实现自动完成，因为我知道如何做到这一点...... 我正在尝试使用ES的edge_n_grams Build 多字（短语）建议，同时索引已爬网数据 . tokenizer 和 token_filter 之间的区别是什么 - 我已经阅读了关于这些的文档，但仍然需要对它们有更多的了解.... 例如，ES是用来搜索用户输入的token_filter吗？是一个令牌化...

elasticsearch token tokenize
1 votes

answers

views

令牌化Python源文件时的令牌名称和关键字（在Python中）

在this answer之后，我试图获取Python源文件的所有令牌信息（即令牌的确切名称，值和位置），如下所示 . # Python source file import os class Test(): """ This class holds latitude, longitude, depth and magnitude data. ...

python python-3.x token tokenize

热门问题