首页 文章
  • 0 votes
     answers
     views

    用于多个文件输入的张量流word2vec

    我正在尝试在一些内部数据集上训练word2vec skip-gram模型 . 我正在关注tensorflow word2vec_basic.py教程 . 数据集有句子,所以我修改了generate_batch函数并在csv文件中存储(批处理,标签) . 由于数据很大,这些文件被分成了部分文件 . 我需要更改代码的tf.session部分以适应这些多个文件 . 由于内存限制,我无法一次加载所有文件 ...
  • 1 votes
     answers
     views

    如何解释H2o深度学习输出向量?

    我想用H2o深度学习模型预测标签,我无法解释我的H2o深度学习输出 . 这是我的H2o深度学习模型的模型参数 . dl_model = deeplearning.H2ODeepLearningEstimator(hidden =[200,200], epochs = 10, ...
  • 0 votes
     answers
     views

    使用sm_35编译时运行CUDA代码,但使用sm_30失败

    我拥有的GPU设备是GeForce GT 750M,我发现它是计算能力3.0 . 我下载了这里找到的CUDA代码:(https://github.com/fengChenHPC/word2vec_cbow . 它的makefile有标志-arch = sm_35 . 由于我的设备是计算能力3.0,我将标志更改为-arch = sm_30 . 它编译得很好,但是当我运行代码时,我收到以下错误: wo...
  • 2 votes
     answers
     views

    如何将3d Tensor传递给tensorflow RNN embedding_rnn_seq2seq

    我正在尝试提供每个世界都有word2vec表示的句子 . 我怎么能在tensorflow seq2seq模型中做到这一点? 假设变量 enc_inp = [tf.placeholder(tf.int32, shape=(None,10), name="inp%i" % t) for t in range(seq_length)] 其中包含维度[num_of_ob...
  • -2 votes
     answers
     views

    如何组合彼此相似的文本问题?

    我有一个200k问题的数据集,我想通过相似性/重复将它们组合在一起 . 我如何使用NLP /机器学习将这些问题按类似意图分组? 给出问题和问题清单,我如何找到相似或重复的问题? 有没有可以做到这一点的服务?
  • 1 votes
     answers
     views

    如何搜索Word2Vec或GloVe嵌入以通过语义关系查找单词

    显示Word嵌入强度的常见示例是显示某些单词之间的语义关系,例如 king:queen = male:female . 如何发现这种关系?这是通过基于几何聚类的某种可视化吗?任何指针将不胜感激 .
  • 1 votes
     answers
     views

    生成由word2vec训练的单词嵌入

    我有一个单词嵌入文件,如下所示click here to see the complete file in github . 我想知道生成单词嵌入的过程这样我就可以为我的个人数据集生成单词嵌入 in -0.051625 -0.063918 -0.132715 -0.122302 -0.265347 to 0.052796 0.076153 0.014475 0.096910 -0.045046 ...
  • 5 votes
     answers
     views

    如何使用Word2Vec获取单词列表的向量?

    我想创建一个本质上是字典的文本文件,每个单词通过word2vec与其矢量表示形成配对 . 我假设这个过程首先训练word2vec,然后从我的列表中查找每个单词并找到它的表示(然后将其保存在一个新的文本文件中)? 我是word2vec的新手,我不知道该怎么做 . 我已经阅读了几个主要网站,以及Stack上的一些问题,但还没有找到一个好的教程 .
  • 9 votes
     answers
     views

    Gensim word2vec关于预定义的字典和单词索引数据

    我需要使用gensim在推文上训练word2vec表示 . 与我在gensim上看到的大多数教程和代码不同,我的数据不是原始数据,但已经过预处理 . 我在包含65k字(包括“未知”标记和EOL标记)的文本文档中有一个字典,并且推文被保存为带有索引的numpy矩阵到这个字典中 . 下面是一个简单的数据格式示例: dict.txt you love this code tweets (5 is un...
  • 0 votes
     answers
     views

    如何为未知单词获取随机word2vec向量?

    我在列车数据上训练word2vec,但是测试数据中有一些词不在列车数据中,那么如何生成与原始数据分布或数字范围相匹配的单词矢量?
  • 0 votes
     answers
     views

    word2vec猜词嵌入

    word2vec可以用于猜测上下文的单词吗?用大数据集训练模型,例如Google新闻如何使用word2vec预测仅包含上下文的类似字词,例如“在国际象棋中占据超过15年的国际象棋”的投入将与密苏里州圣路易斯的九名顶级球员竞争 . 输出应该是卡斯帕罗夫或卡尔森 . 我只看到相似的apis,但我无法理解如何使用它们?这不是word2vec打算用的吗?
  • 4 votes
     answers
     views

    为什么单词嵌入实际上是向量?

    我很抱歉我的天真,但我不明白为什么NN训练过程(word2vec)的结果嵌入是实际的向量 . 嵌入是降维的过程,在训练过程中,NN将1/0的单词数组减少为较小的数组,该过程不会应用向量算法 . 因此,我们得到的只是数组而不是向量 . 为什么我应该将这些数组视为向量? 即使我们得到了矢量,为什么每个人都将它们描述为来自原点的矢量(0,0)? 如果我的问题看起来很愚蠢,我很抱歉 .
  • 2 votes
     answers
     views

    word2vec的单词字典

    我需要为单词字典生成word2vec数组 . 字典看起来像这样 test={0: 'tench, Tinca tinca', 1: 'goldfish, Carassius auratus', 2: 'great white shark, white shark, man-eater, man-eating shark, Carcharodon carcharias', 3: 'tiger ...
  • 0 votes
     answers
     views

    'negative sampling'如何提高word2vec中的单词表示质量?

    ' word2vec ' improves the training speed, that'中的负抽样显然! 但为什么' makes the word representations significantly more accurate. '? 我没有找到相关的讨论或细节 . 你能帮我吗?
  • 0 votes
     answers
     views

    混合来自不同模型的单词矢量

    在使用Word2Vec寻找 disambiguate word senses using word vectors representation 的方法时,我想到的一个策略如下: Train a model using a corpus where you know the senses of the words of interest ,就我而言,英文单词也是基因名称 . 然后,只要感兴趣的段落...
  • 14 votes
     answers
     views

    gensim如何计算doc2vec段落向量

    我要去看这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf 它说明了这一点 “对图矢量和单词向量进行平均或连接以预测上下文中的下一个单词 . 在实验中,我们使用连接作为组合向量的方法 . ” 连接或平均如何工作? 示例(如果第1段包含word1和word2): word1 vector =[0.1,0.2,0.3] word2 vec...
  • 2 votes
     answers
     views

    上下文单词的表示矩阵在SkipGram中意味着什么?

    我正在学习斯坦福NLP课程,我从Skipgram中了解了一个概念,如下图所示 . 从左到右,第一列向量是单热编码器,第二列是来自1层神经网络的单词嵌入矩阵,第三列是单词表示向量 . 然而,当谈到第四个时,它是一个具有'v by d'维度的矩阵 . 不确定我是否正确地听,但是发言者说这是上下文单词的表示,这三个矩阵是相同的吗? 我的问题是:1 . 为什么这三个矩阵是相同的,但三个乘法结果是不同的? ...
  • 1 votes
     answers
     views

    Fasttext算法只使用单词和子词?还是句子?

    如果学习方法有任何好的例子(或者更有可能是学习程序),我也会阅读论文并用Google搜索 对于word2vec,假设有语料库句子 我带着午餐盒去学校,我的母亲每天早上都会把它包起来 然后使用窗口大小2,它将尝试通过使用周围的单词来获得“学校”的向量 ['去','到','有','午餐'] 现在,FastText说它使用子字来获取向量,所以肯定使用n gram子字,例如n = 3, ['sc...
  • 0 votes
     answers
     views

    使用单词向量的文档分类

    当我对用自然语言编写的文档进行分类和聚类时,我想出了一个问题...... 作为word2vec和手套,等等,在分布式空间中对单词进行矢量化,我想知道是否有任何推荐或常用于文档向量化的方法 USING word vectors. 例如, 文件1:“如果你追逐两只兔子,你将失去它们 . ” 可以被矢量化为, [0.1425,0.2718,0.8187,....,0.1011] 我知道一个也称为...
  • 2 votes
     answers
     views

    在Keras中使用word2vec和seq2seq模型

    我的目的是构建类似Q&A机器人的东西,可以根据用户的输入句子生成句子 . 我在gensim中使用预先训练过的word2vec来输入模型 .我的话是中文,但我认为word2vec并不重要 . 我首先把每个句子变成了一个3d数组 . 形状是 (sample_n,time_step,word_dim) x = [sentence_1, sentence_2, ... , sentence_n] sent...
  • 0 votes
     answers
     views

    使用word2vec使用rnn进行单词预测

    我通过将经过预先训练的 word2vec 单词作为输入来训练网络 . 我想知道我是否可以使用 word2vec 目标字来计算错误成本 . 它似乎不起作用,我从未见过这样的例子或论文 . 是否可以使用word2vec作为计算错误成本的目标值?如果是这样,我应该使用什么样的成本函数?如果没有,请以数学方式解释原因 . 我该如何设置输入和目标?现在我正在使用如下的架构: input : word1, w...
  • 0 votes
     answers
     views

    如何在tensorflow_word2vec中找到某个单词的相似单词,比如在gensim中使用model.most_similar?

    我使用tensorflow来构建word2vec模型,请参考这里:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/word2vec_basic.py#L118 我的问题是,如何找到某个单词的前n个相似的单词 . 我知道在gensim中,我可以保存并加载word2v...
  • 1 votes
     answers
     views

    Word2Vec输入和输出向量

    通过关于udacity的word2vec教程,从文章中可以看出,输入字向量和输出有单独的矩阵 . 例如 . ['the','cat','sat','on','mat'] . 这里输入向量$ w_i $, 'the','cat','on','mat' 将预测 'sat' 的输出向量$ w_o $ . 它通过如下所示的采样softmax来实现,其中 |context| 是上下文字的大小(在这种情...
  • 3 votes
     answers
     views

    Word2Vec输出向量

    据我了解,Word2Vec基于训练语料库构建单词词典(或词汇表),并为词典中的每个单词输出K-dim向量 . 我的问题是,那些K-Dim载体的来源究竟是什么?我假设每个向量是输入和隐藏层之间或隐藏和输出层之间的权重矩阵之一中的行或列 . 但是,我还没有找到任何支持这方面的资源,而且我在编程语言方面的识字能力不足以检查源代码并自行解决 . 任何关于这个主题的澄清评论将不胜感激!
  • 5 votes
     answers
     views

    Pyspark如何从word2vec单词嵌入中计算Doc2Vec?

    我有一个pyspark数据框,其中包含大约300k个唯一行的语料库,每个行都有一个“doc”,每个文档包含几个文本句子 . 在处理之后,我有每行/ doc的200维矢量化表示 . 我的NLP流程: 使用正则表达式udf删除标点符号 用nltk雪球udf词干 Pyspark Tokenizer Word2Vec(ml.feature.Word2Vec,vectorSize = 200...
  • 16 votes
     answers
     views

    如何使用word2vec找到最接近向量的单词

    我刚开始使用Word2vec,我想知道如何才能找到最接近向量的单词 . 我有这个向量,它是一组向量的平均向量: array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32) 是否有直接的方法在我的训练数据中找到与此向量最相似的单词? 或者唯一的解决方案是计算此向量与训练数据中每个单词的向量之间的余弦相似度,然后选择最接近的一个...
  • 0 votes
     answers
     views

    word2vec工具包距离脚本

    我正在使用“距离”脚本在我构建的word2vec上找到类似的单词 . 它包含大约1.6M的单词,并由此命令训练: ./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -bi...
  • 1 votes
     answers
     views

    预测中间词word2vec

    我有来自官方github存储库的predict_output_word方法 . 它只接受用skip-gram训练的wod2vec模型,并试图通过对所有输入单词索引的向量求和来预测中间单词,并通过输入单词索引的np_sum长度对其进行分类 . 然后考虑输出并使用softmax来获得预测单词的概率,然后将所有这些概率相加以获得最可能的单词 . 是否有更好的方法来解决这个问题以获得更好的词汇,因为这会给...
  • 11 votes
     answers
     views

    使用word2vec对类别中的单词进行分类

    BACKGROUND 我有一些带有一些样本数据的向量,每个向量都有一个类别名称(地点,颜色,名称) . ['john','jay','dan','nathan','bob'] -> 'Names' ['yellow', 'red','green'] -> 'Colors' ['tokyo','bejing','washington','mumbai'] -> 'Places' ...
  • 1 votes
     answers
     views

    在卷积神经网络分类器中加载预训练的word2vec模型

    是否可以在分类器中加载预先训练好的word2vec模型文件进行分类任务?

热门问题