-
4 votesanswersviews
OOV词的词嵌入
我已经从语料库中生成了单词向量,但是我面临很多单词的词汇问题 . 如何使用现有的单词嵌入动态生成OOV字的单词向量? -
1 votesanswersviews
如何搜索Word2Vec或GloVe嵌入以通过语义关系查找单词
显示Word嵌入强度的常见示例是显示某些单词之间的语义关系,例如 king:queen = male:female . 如何发现这种关系?这是通过基于几何聚类的某种可视化吗?任何指针将不胜感激 . -
1 votesanswersviews
生成由word2vec训练的单词嵌入
我有一个单词嵌入文件,如下所示click here to see the complete file in github . 我想知道生成单词嵌入的过程这样我就可以为我的个人数据集生成单词嵌入 in -0.051625 -0.063918 -0.132715 -0.122302 -0.265347 to 0.052796 0.076153 0.014475 0.096910 -0.045046 ... -
5 votesanswersviews
如何使用Word2Vec获取单词列表的向量?
我想创建一个本质上是字典的文本文件,每个单词通过word2vec与其矢量表示形成配对 . 我假设这个过程首先训练word2vec,然后从我的列表中查找每个单词并找到它的表示(然后将其保存在一个新的文本文件中)? 我是word2vec的新手,我不知道该怎么做 . 我已经阅读了几个主要网站,以及Stack上的一些问题,但还没有找到一个好的教程 . -
9 votesanswersviews
Gensim word2vec关于预定义的字典和单词索引数据
我需要使用gensim在推文上训练word2vec表示 . 与我在gensim上看到的大多数教程和代码不同,我的数据不是原始数据,但已经过预处理 . 我在包含65k字(包括“未知”标记和EOL标记)的文本文档中有一个字典,并且推文被保存为带有索引的numpy矩阵到这个字典中 . 下面是一个简单的数据格式示例: dict.txt you love this code tweets (5 is un... -
0 votesanswersviews
如何为未知单词获取随机word2vec向量?
我在列车数据上训练word2vec,但是测试数据中有一些词不在列车数据中,那么如何生成与原始数据分布或数字范围相匹配的单词矢量? -
0 votesanswersviews
word2vec猜词嵌入
word2vec可以用于猜测上下文的单词吗?用大数据集训练模型,例如Google新闻如何使用word2vec预测仅包含上下文的类似字词,例如“在国际象棋中占据超过15年的国际象棋”的投入将与密苏里州圣路易斯的九名顶级球员竞争 . 输出应该是卡斯帕罗夫或卡尔森 . 我只看到相似的apis,但我无法理解如何使用它们?这不是word2vec打算用的吗? -
4 votesanswersviews
为什么单词嵌入实际上是向量?
我很抱歉我的天真,但我不明白为什么NN训练过程(word2vec)的结果嵌入是实际的向量 . 嵌入是降维的过程,在训练过程中,NN将1/0的单词数组减少为较小的数组,该过程不会应用向量算法 . 因此,我们得到的只是数组而不是向量 . 为什么我应该将这些数组视为向量? 即使我们得到了矢量,为什么每个人都将它们描述为来自原点的矢量(0,0)? 如果我的问题看起来很愚蠢,我很抱歉 . -
2 votesanswersviews
word2vec的单词字典
我需要为单词字典生成word2vec数组 . 字典看起来像这样 test={0: 'tench, Tinca tinca', 1: 'goldfish, Carassius auratus', 2: 'great white shark, white shark, man-eater, man-eating shark, Carcharodon carcharias', 3: 'tiger ... -
0 votesanswersviews
'negative sampling'如何提高word2vec中的单词表示质量?
' word2vec ' improves the training speed, that'中的负抽样显然! 但为什么' makes the word representations significantly more accurate. '? 我没有找到相关的讨论或细节 . 你能帮我吗? -
0 votesanswersviews
混合来自不同模型的单词矢量
在使用Word2Vec寻找 disambiguate word senses using word vectors representation 的方法时,我想到的一个策略如下: Train a model using a corpus where you know the senses of the words of interest ,就我而言,英文单词也是基因名称 . 然后,只要感兴趣的段落... -
14 votesanswersviews
gensim如何计算doc2vec段落向量
我要去看这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf 它说明了这一点 “对图矢量和单词向量进行平均或连接以预测上下文中的下一个单词 . 在实验中,我们使用连接作为组合向量的方法 . ” 连接或平均如何工作? 示例(如果第1段包含word1和word2): word1 vector =[0.1,0.2,0.3] word2 vec... -
2 votesanswersviews
上下文单词的表示矩阵在SkipGram中意味着什么?
我正在学习斯坦福NLP课程,我从Skipgram中了解了一个概念,如下图所示 . 从左到右,第一列向量是单热编码器,第二列是来自1层神经网络的单词嵌入矩阵,第三列是单词表示向量 . 然而,当谈到第四个时,它是一个具有'v by d'维度的矩阵 . 不确定我是否正确地听,但是发言者说这是上下文单词的表示,这三个矩阵是相同的吗? 我的问题是:1 . 为什么这三个矩阵是相同的,但三个乘法结果是不同的? ... -
1 votesanswersviews
Fasttext算法只使用单词和子词?还是句子?
如果学习方法有任何好的例子(或者更有可能是学习程序),我也会阅读论文并用Google搜索 对于word2vec,假设有语料库句子 我带着午餐盒去学校,我的母亲每天早上都会把它包起来 然后使用窗口大小2,它将尝试通过使用周围的单词来获得“学校”的向量 ['去','到','有','午餐'] 现在,FastText说它使用子字来获取向量,所以肯定使用n gram子字,例如n = 3, ['sc... -
0 votesanswersviews
使用单词向量的文档分类
当我对用自然语言编写的文档进行分类和聚类时,我想出了一个问题...... 作为word2vec和手套,等等,在分布式空间中对单词进行矢量化,我想知道是否有任何推荐或常用于文档向量化的方法 USING word vectors. 例如, 文件1:“如果你追逐两只兔子,你将失去它们 . ” 可以被矢量化为, [0.1425,0.2718,0.8187,....,0.1011] 我知道一个也称为... -
0 votesanswersviews
tensorflow word2vec损失函数不会减少
按照官方示例,我使用tf.nce_loss()作为损失函数在tensorflow中实现了word2vec . 在培训期间,我一直都没有看到损失减少,如果这是正常的话? 因为我的数据集真的很大,我 choose 1 as the epoch num . 我应该增加纪元数以减少损失吗? 如果没有,我能做什么 make the loss decrease 或者这对于获得 good version wo... -
2 votesanswersviews
在Keras中使用word2vec和seq2seq模型
我的目的是构建类似Q&A机器人的东西,可以根据用户的输入句子生成句子 . 我在gensim中使用预先训练过的word2vec来输入模型 .我的话是中文,但我认为word2vec并不重要 . 我首先把每个句子变成了一个3d数组 . 形状是 (sample_n,time_step,word_dim) x = [sentence_1, sentence_2, ... , sentence_n] sent... -
0 votesanswersviews
使用sm_35编译时运行CUDA代码,但使用sm_30失败
我拥有的GPU设备是GeForce GT 750M,我发现它是计算能力3.0 . 我下载了这里找到的CUDA代码:(https://github.com/fengChenHPC/word2vec_cbow . 它的makefile有标志-arch = sm_35 . 由于我的设备是计算能力3.0,我将标志更改为-arch = sm_30 . 它编译得很好,但是当我运行代码时,我收到以下错误: wo... -
2 votesanswersviews
如何将3d Tensor传递给tensorflow RNN embedding_rnn_seq2seq
我正在尝试提供每个世界都有word2vec表示的句子 . 我怎么能在tensorflow seq2seq模型中做到这一点? 假设变量 enc_inp = [tf.placeholder(tf.int32, shape=(None,10), name="inp%i" % t) for t in range(seq_length)] 其中包含维度[num_of_ob... -
0 votesanswersviews
如何在tensorflow_word2vec中找到某个单词的相似单词,比如在gensim中使用model.most_similar?
我使用tensorflow来构建word2vec模型,请参考这里:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/word2vec_basic.py#L118 我的问题是,如何找到某个单词的前n个相似的单词 . 我知道在gensim中,我可以保存并加载word2v... -
1 votesanswersviews
Word2Vec输入和输出向量
通过关于udacity的word2vec教程,从文章中可以看出,输入字向量和输出有单独的矩阵 . 例如 . ['the','cat','sat','on','mat'] . 这里输入向量$ w_i $, 'the','cat','on','mat' 将预测 'sat' 的输出向量$ w_o $ . 它通过如下所示的采样softmax来实现,其中 |context| 是上下文字的大小(在这种情... -
3 votesanswersviews
Word2Vec输出向量
据我了解,Word2Vec基于训练语料库构建单词词典(或词汇表),并为词典中的每个单词输出K-dim向量 . 我的问题是,那些K-Dim载体的来源究竟是什么?我假设每个向量是输入和隐藏层之间或隐藏和输出层之间的权重矩阵之一中的行或列 . 但是,我还没有找到任何支持这方面的资源,而且我在编程语言方面的识字能力不足以检查源代码并自行解决 . 任何关于这个主题的澄清评论将不胜感激! -
5 votesanswersviews
Pyspark如何从word2vec单词嵌入中计算Doc2Vec?
我有一个pyspark数据框,其中包含大约300k个唯一行的语料库,每个行都有一个“doc”,每个文档包含几个文本句子 . 在处理之后,我有每行/ doc的200维矢量化表示 . 我的NLP流程: 使用正则表达式udf删除标点符号 用nltk雪球udf词干 Pyspark Tokenizer Word2Vec(ml.feature.Word2Vec,vectorSize = 200... -
16 votesanswersviews
如何使用word2vec找到最接近向量的单词
我刚开始使用Word2vec,我想知道如何才能找到最接近向量的单词 . 我有这个向量,它是一组向量的平均向量: array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32) 是否有直接的方法在我的训练数据中找到与此向量最相似的单词? 或者唯一的解决方案是计算此向量与训练数据中每个单词的向量之间的余弦相似度,然后选择最接近的一个... -
0 votesanswersviews
word2vec工具包距离脚本
我正在使用“距离”脚本在我构建的word2vec上找到类似的单词 . 它包含大约1.6M的单词,并由此命令训练: ./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -bi... -
1 votesanswersviews
预测中间词word2vec
我有来自官方github存储库的predict_output_word方法 . 它只接受用skip-gram训练的wod2vec模型,并试图通过对所有输入单词索引的向量求和来预测中间单词,并通过输入单词索引的np_sum长度对其进行分类 . 然后考虑输出并使用softmax来获得预测单词的概率,然后将所有这些概率相加以获得最可能的单词 . 是否有更好的方法来解决这个问题以获得更好的词汇,因为这会给... -
11 votesanswersviews
使用word2vec对类别中的单词进行分类
BACKGROUND 我有一些带有一些样本数据的向量,每个向量都有一个类别名称(地点,颜色,名称) . ['john','jay','dan','nathan','bob'] -> 'Names' ['yellow', 'red','green'] -> 'Colors' ['tokyo','bejing','washington','mumbai'] -> 'Places' ... -
1 votesanswersviews
在卷积神经网络分类器中加载预训练的word2vec模型
是否可以在分类器中加载预先训练好的word2vec模型文件进行分类任务? -
0 votesanswersviews
使用GoogleNews-vectors-negative300.bin的word2vec出错
python的版本是3.6我试图执行我的代码,但仍然有一些错误如下: 回溯(最近的呼叫最后): 文件“C:\ Users \ tmdgu \ Desktop \ NLP-master1 \ NLP-master \ Ontology_Construction.py”,第55行,in,binary = True)文件“E:\ Program Files \ Python \ Python35-32... -
0 votesanswersviews
使用word2vec和gensim的Keras嵌入层错误
我收到了这个错误: Error when checking input: expected embedding_2_input to have 2 dimensions, but got array with shape (831, 48, 200) 我想用Keras做RNN LSTM来对句子的每个单词进行分类(0/1) . 我有句子的每个单词的wordVector(dimension_size...