-
1 votesanswersviews
如何搜索Word2Vec或GloVe嵌入以通过语义关系查找单词
显示Word嵌入强度的常见示例是显示某些单词之间的语义关系,例如 king:queen = male:female . 如何发现这种关系?这是通过基于几何聚类的某种可视化吗?任何指针将不胜感激 . -
1 votesanswersviews
生成由word2vec训练的单词嵌入
我有一个单词嵌入文件,如下所示click here to see the complete file in github . 我想知道生成单词嵌入的过程这样我就可以为我的个人数据集生成单词嵌入 in -0.051625 -0.063918 -0.132715 -0.122302 -0.265347 to 0.052796 0.076153 0.014475 0.096910 -0.045046 ... -
1 votesanswersviews
使用已学习的单词嵌入从字符学习单词嵌入
我有一个文本语料库,我想找到从字符开始的单词嵌入 . 所以我有一系列字符作为输入,我想将它投影到一个多维空间 . 作为一个初始化,我想适合已经学过的单词嵌入(例如,谷歌嵌入) . 我有些疑惑: 我是否需要为输入序列中的每个输入字符使用字符嵌入向量?如果我只使用ascii或utf-8编码会有问题吗? 尽管输入矢量定义是什么(嵌入vec,ascii,..),选择合适的模型真的很困惑,有几个选项... -
2 votesanswersviews
gensim的word2vec与张量流向量表示有何不同?
我是NLP嵌入世界的新手 . 我使用了gensim的word2vec模型和tensorflow矢量表示 . 我有一个问题,在培训gensim 's word2vec model it takes tokenize sentences, while tensorflow takes a long list of words. How does it differ in training. Is th... -
1 votesanswersviews
Fasttext算法只使用单词和子词?还是句子?
如果学习方法有任何好的例子(或者更有可能是学习程序),我也会阅读论文并用Google搜索 对于word2vec,假设有语料库句子 我带着午餐盒去学校,我的母亲每天早上都会把它包起来 然后使用窗口大小2,它将尝试通过使用周围的单词来获得“学校”的向量 ['去','到','有','午餐'] 现在,FastText说它使用子字来获取向量,所以肯定使用n gram子字,例如n = 3, ['sc... -
0 votesanswersviews
使用嵌入层分离keras模型
我训练了一个带有预先训练过的单词嵌入的模型,如下所示: embedding_matrix = np.zeros((vocab_size, 100)) for word, i in text_tokenizer.word_index.items(): embedding_vector = embeddings_index.get(word) if embedding_vector i... -
3 votesanswersviews
TensorBoard嵌入可视化工具不显示标签
我正在尝试使用TensorBoard embedding visualizer来表示我刚刚生成的一组7307动词嵌入,但是当我选择启用3d标签模式时,绘制的点会消失 . 这是我的代码: def plot(tsne_matrix, labels_path): PATH = os.getcwd() LOG_DIR = PATH metadata = os.path.join(LOG_DIR, la... -
1 votesanswersviews
使用The Glove方法时谈论skip-gram和cbow是否有意义?
我正在尝试不同的单词嵌入方法,以便选择最适合我的方法 . 我尝试过word2vec和FastText . 现在,我想试试Glove . 在word2vec和FastText中,有两个版本:Skip-gram(从单词预测上下文)和CBOW(从上下文预测单词) . 但是在Glove python包中,没有参数可以让你选择是否要使用skipg-gram或Cbow . 鉴于Glove与w2v的工作方式不同... -
17 votesanswersviews
使用LSTM教程代码来预测句子中的下一个单词?
我一直试图用https://www.tensorflow.org/tutorials/recurrent来理解示例代码,你可以在https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py找到它 . (使用tensorflow 1.3.0 . ) 我总结(我认为是)关键部分,对于我的问题,如下: ... -
0 votesanswersviews
在句子级别实施预先训练的单词嵌入?
我正在尝试进行文本分类,并在句子级别使用预先训练的Glove字嵌入 . 我目前正在使用非常天真的方法,即平均单词向量来表示句子 . 问题是,如果句子中没有预先训练过的单词,如果发生这种情况我该怎么办?只是忽略这句话或随机为这个句子向量分配一些值?我找不到处理这个问题的参考文献,大多数论文只是说他们使用平均预训练的单词嵌入来生成句子嵌入 . -
5 votesanswersviews
NLP - 嵌入选择句子标记的“开始”和“结束”
假设我们正在训练神经网络模型来学习从以下输入到输出的映射,其中输出是Name Entity(NE) . Input :欧盟反对德国呼吁抵制英国羔羊 . Output :ORG O MISC O O O MISC O O. 创建滑动窗口以捕获上下文信息,并将其结果作为model_input提供给训练模型 . 滑动窗口生成如下结果: [['<s>', '<s>', 'EU', ... -
0 votesanswersviews
Keras word embeddings Glove:无法准备嵌入矩阵
我正在尝试在单词嵌入上实现Keras代码(https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html),我可以't get it straight. I' m使用Glove,embedding_index,我有一个数据集,其中5374个唯一单词存储在dict word_index(len(word_in... -
0 votesanswersviews
使用清理数据中的代理句子
Gensim的 Word2Vec 模型将列表列表作为输入,内部列表包含句子的单个标记/单词 . 据我所知, Word2Vec 用于使用向量在文本中使用单词的上下文 . 我目前处理的文本语料库已被拆分为单独的令牌,不再包含明显的句子格式(标点符号已被删除) . 我想知道如何将其输入到 Word2Vec 模型中? 假设我只是将语料库分成均匀长度的“句子”(例如每个句子10个标记),这是将数据输入模型的... -
0 votesanswersviews
合并序列嵌入与时间序列特征
我在 Keras 的 Keras 实现的某些方面遇到了麻烦 . 这是我的问题的描述: 我正在尝试训练一个用于单词正确性预测的模型 . 我的模型有两种输入: 一个单词序列(句子) 和一系列特征向量(对于每个单词,我计算特征胜利者为6) . e.g. input_1 = ['we', 'have', 'two', 'review'] input_2 = [[1.25, 0.01, 0.00... -
2 votesanswersviews
GloVe嵌入 - 未知/词汇外标记
我想知道GloVe嵌入是否有一般(默认)词典外(OOV)令牌 . 特别是来自斯坦福大学的预训练者:https://nlp.stanford.edu/projects/glove/ 我在SO上找到了这个:What is "unk" in glove.6B.50d.txt? 给出的答案表明令牌 "unk" 代表OOV-Token和shared a link to... -
0 votesanswersviews
使用GLOVEs预训练手套.6.50.50.txt作为单词嵌入R的基础
我似乎进入了矢量化阶段 . 我've downloaded the glove.6b.50.txt file and it'的父拉链文件来自:https://nlp.stanford.edu/projects/glove/我已经访问了text2vec 's website and tried running through their example where they load wikiped... -
0 votesanswersviews
Keras LSTM在LSTM层之前具有嵌入层
我正在尝试keras IMDB数据的例子,数据形状是这样的: x_train形状:(25000,80) 我只是将keras示例的原始代码更改为如下代码: model = Sequential() layer1 = Embedding(max_features, 128) layer2 = LSTM(128, dropout = 0.2, recurrent_dropout = 0.2, ret... -
3 votesanswersviews
TensorFlow渐变:通过tf.gradients获得不必要的0.0渐变
我们假设我有以下变量 embeddings = tf.Variable(tf.random_uniform(dtype = tf.float32,shape = [self.vocab_size,self.embedding_dim],minval = -0.001,maxval = 0.001))sent_1 = construct_sentence(word_ids_1)sent_2 = c... -
1 votesanswersviews
如何使用LSTM神经网络将文字分类和情感极性等功能结合起来进行文本分类?
LSTM的嵌入层由词汇表中的weights = embedding_matrix提供,而model.fit具有X_train,这是标记化的文本数据 . 我的X_train具有形状(12,000,100)并且embeddings_matrix具有形状(34613,300),其中34613是令牌的数量(来自完整数据的词汇~15000个句子) . 我创建了一个sentiment_matrix,它将极性-... -
0 votesanswersviews
Gensim Word2Vec从预训练模型中选择一组较小的单词向量
我在gensim中有一个大型的预训练Word2Vec模型,我希望在我的Keras模型中使用预训练的单词向量作为嵌入层 . 问题是嵌入大小是巨大的,我不需要大多数单词向量(因为我知道哪些单词可以作为输入发生) . 所以我想摆脱它们来减少嵌入层的大小 . 有没有办法只保留所需的wordvectors(包括相应的索引!),基于单词的白名单? -
7 votesanswersviews
只训练一些单词嵌入(Keras)
在我的模型中,我使用GloVe预训练嵌入 . 我希望保持它们不可训练,以减少模型参数的数量并避免过度拟合 . 但是,我有一个特殊的符号,其嵌入我想训练 . 使用提供的嵌入层,我只能使用参数'trainable'以下列方式设置 all 嵌入的可训练性: embedding_layer = Embedding(voc_size, emb_dim, ... -
0 votesanswersviews
功能类Keras中的输入形状
我想用功能模型在keras中嵌入BLSTM . 我必须将输入声明为: inputs = Input(shape=(X,)) 这应该是 X 的值?由于输入将是句子,我不太确定我应该放在那里 . -
0 votesanswersviews
使用gloves.6B.50d.txt时,常用的做法是表示“空”字 .
我试图用“空字”填充一个固定长度的句子 . 事实证明,手套中的标准“unk”标记.6.50.50.txt是一个非零向量 . 我想知道在使用这个数据集时代表一个“空”字的常见做法是什么? -
1 votesanswersviews
如何使用带嵌入字的Keras LSTM来预测单词id
在Keras中使用单词嵌入时,我在理解如何获得正确输出时遇到问题 . 我的设置如下: 我的输入是批量形状 (batch_size, sequence_length) . 批处理中的每一行代表一个句子,该单词由单词id表示 . 句子用零填充,使得所有句子都具有相同的长度 . 例如, (3,6) 输入批处理可能如下所示: np.array([[135600],[174580],[138272]]...