-
2 votesanswersviews
R中光栅堆栈的无监督随机森林分类
我想计算R中光栅堆栈中的无监督随机森林分类 . 栅格堆栈在不同光谱带中表示相同的范围,因此我想获得堆栈的无监督分类 . 我的代码有问题,因为我的数据非常庞大 . 是否可以将堆栈转换为数据帧,以便像这样运行随机森林算法: stack_median <- stack(b1_mosaic_median, b2_mosaic_median, b3_mosaic_median, b4_mosaic_m... -
2 votesanswersviews
如何训练和微调完全无监督的深度神经网络?
在场景1中,我有一个多层稀疏自动编码器,试图重现我的输入,所以我的所有层都与随机启动的权重一起训练 . 没有监督层,在我的数据上,这没有学到任何相关信息(代码工作正常,经过验证,因为我已经在许多其他深度神经网络问题中使用过它) 在场景2中,我简单地训练多个自动编码器进行贪婪的分层训练,类似于深度学习(但最后没有监督步骤),每个层都在前一个自动编码器的隐藏层的输出上 . 他们现在将分别学习一些模式(... -
3 votesanswersviews
使用SciKit在python中记录文档聚类
我最近开始使用python中的SciKit模块进行文档聚类 . 但是,我很难理解文档聚类的基础知识 . 我知道的 ? 文档聚类通常使用TF / IDF完成 . 这实质上是将文档中的单词转换为向量空间模型,然后输入到算法中 . 有许多算法,如k-means,神经网络,层次聚类来实现这一目标 . 我的数据: 我正在尝试使用linkedin数据,每个文档都是linkedin配置文件摘要,我... -
3 votesanswersviews
新闻文章的在线聚类
是否有一种通用的在线算法来动态分类新闻?我有一个按主题分类的大量新闻数据集 . 我认为每个主题都是一个集群 . 现在我需要对突发新闻进行分类 . 可能,我需要动态生成新主题或新集群 . 我正在使用的算法如下: 1)我通过新闻网站的一组提要,我认识到新闻链接 . 2)对于每个新链接,我使用dragnet提取内容,然后对其进行标记 . 3)我使用sklearn的TfidfVectorizer找到所有旧... -
-2 votesanswersviews
通过机器学习共同主题对单词进行分组[暂停]
我有一个关键字列表,我需要根据他们的主题分别分组(或群集) . 问题是我拥有的数据没有任何指标来表示这些单词之间的差异 . 例如,'足球'和'板球棒'应该分成不同的组,因为它们代表不同的运动 . 是否有机器学习或nlp库(或任何图书馆)已经保存了这样的主题和相关单词? -
23 votesanswersviews
遗传算法/ w神经网络玩蛇没有改进
我正在尝试创建一个遗传算法来训练神经网络,目的是玩游戏蛇 . 我遇到的问题是,几代人的 Health 状况并没有改善,它要么仍然保持在不给予任何输入游戏的期望,或者只是在第一代之后变得更糟 . 我怀疑它是神经网络的一个问题,但我不知道它是什么 . 神经网络设置 24个输入节点2个隐藏层8个每层节点4个输出节点(蛇可以采用每个方向一个) 输入是蛇可以看到的每个方向的数组 . 对于每个方向,它检查... -
1 votesanswersviews
聚类数据后的分类与DTW
我的任务是预测测试实例所处的状态 . 我的列车集具有M个实例时间序列,每个实例具有不同的持续时间 . 每个实例在列车数据中有5个状态(s1,s2,s3,s4,s5) . 对于每个实例,所有状态都以相同的顺序出现 . 在我的测试数据中,并非所有实例都具有所有5个状态 . 我的目标是预测特定实例所处的状态 . 未给出类标签 . 我已经执行了分层聚类来分割每个列车实例 . 在预测时,我使用快速DTW来查... -
1 votesanswersviews
使用Autoencoder中的权重来初始化张量流中的神经网络
我使用Python和Tensorflow构建了一个Autoencoder . 为了构建Autoencoder,我使用了Tensorflow教程,介绍如何构建一个Autoencoder来读取手写数字上的MNIST数据集 . 我用它来找到CGRA成分的特征 . 到目前为止,我重新构建了Autoencoder的代码,我可以在自己的数据上使用它 . 我找到了功能,并且已经设法重建输入,直到某个错误 . 现... -
-1 votesanswersviews
无监督分类:为数据分配类[关闭]
我有一组来自钻孔的数据,它包含每2米不同地质力学特性的信息 . 我正在尝试创建地质力学域,并将每个点分配给不同的域 . 我试图使用随机森林分类,并且不确定如何将proximty矩阵(或randomForest函数的任何结果)与标签相关联 . 到目前为止我的简陋代码如下: dh <- read.csv("gt_1_classification.csv", header = ... -
13 votesanswersviews
新闻文章的集群
我的场景非常简单:我有一堆新闻文章(目前约为1k),我知道有些文章涉及相同的故事/主题 . 我现在想根据共享的故事/主题对这些文章进行分组,即基于它们的相似性 . 到目前为止,我所做的是应用基本的NLP技术,包括删除词和删除词 . 我还计算了每篇文章的tf-idf向量,并且还可以基于这些tf-idf向量计算例如余弦相似度 . 但现在随着文章的分组我有点挣扎 . 我看到两种主要方式 - 可能是相关的... -
0 votesanswersviews
如何将手机hmm模型连接到复合词或句子hmm模型
我想进行语音识别的嵌入式培训 . 一开始,我想使用具有三态的单声道,正如论文描述的那样,我可以将一个单词或句子中的所有电话连接起来制作合成的hmm模型,并在合成的hmm模型上进行嵌入式训练 . 喜欢这张图片: 当我尝试这样做时,我感到困惑,有些问题让我感到困惑 . 三态手机型号还有其他2种状态,开始状态和结束状态,一般只允许自身状态转换为自身状态和自身状态 . So what is th... -
3 votesanswersviews
隐马尔可夫模型:随着状态数量的增加,精度是否有可能降低?
我使用Baum-Welch算法为越来越多的状态构造了几个隐马尔可夫模型 . 我注意到在8个州之后,验证分数下降超过8个州 . 所以我想知道,由于某种过度拟合,隐马尔可夫模型的准确性是否可能随着越来越多的状态而降低? 提前致谢!