-
1 votesanswersviews
Weka 3.7.11中的随机树用于数值属性的分裂标准是什么?
我正在使用来自Weka 3.7.11的RandomForest,而后者正在装袋Weka的RandomTree . 我的输入属性是数字,输出属性(标签)也是数字 . 在训练RandomTree时,为树的每个节点随机选择K个属性 . 尝试基于这些属性的若干分裂,并选择“最佳”分裂 . Weka如何确定这个(数字)案例中最好的分裂? 对于名义属性,我认为Weka正在使用基于条件熵的informatio... -
4 votesanswersviews
scikit中的分裂者学习决策树
我试图理解scikit learn中决策树分割器的实现 . 但是我已经坚持了它开始找到最佳分割的点 . 需要帮助来理解其中正在发生的算法 . 我需要从第352行(在这个文件[https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/tree/_splitter.pyx)中理解的代码,它基本上构建了决策树的核心 -
3 votesanswersviews
Scikit-learn,随机森林 - 每棵树包含多少个样本?
在scikit-learn的RandomForestClassifier中,没有设置来指定每棵树应该构建多少个样本 . 也就是说,从数据中随机拉出以构建每个树的子集应该有多大 . 我很难找到默认情况下有多少样本scikit-learn pulls . 有人知道吗? -
9 votesanswersviews
使用scikit-learn并行生成随机森林
主要问题:如何在python和scikit-learn中组合不同的randomForests? 我目前正在使用R中的randomForest包来使用弹性贴图reduce生成randomforest对象 . 这是为了解决分类问题 . 由于我的输入数据太大而无法放入一台机器的内存中,因此我将数据采样为较小的数据集并生成包含较小树集的随机林对象 . 然后,我使用修改的组合函数将不同的树组合在一起,以创建... -
1 votesanswersviews
在scikit-learn中实现R随机森林特征重要性得分
我正在尝试为sklearn中的随机森林回归模型实现R的特征重要性评分方法;根据R的文档: 第一个度量是根据置换OOB数据计算的:对于每个树,记录数据的袋外部分的预测误差(分类的错误率,回归的MSE) . 然后在置换每个预测变量之后完成相同的操作 . 然后将两者之间的差异在所有树上进行平均,并通过差异的标准偏差进行归一化 . 如果变量的差异的标准偏差等于0,则不进行除法(但在这种情况下平均值几乎总... -
7 votesanswersviews
scikit-learn(python)中的 balancer 随机森林
我想知道在scikit-learn软件包的最新版本中是否有 balancer 随机森林(BRF)的实现 . BRF用于不 balancer 数据的情况 . 它可以作为普通RF工作,但是对于每次自举迭代,它通过欠采样来 balancer 普遍性类 . 例如,给定两个类N0 = 100,N1 = 30个实例,在每个随机抽样中,它从第一个类中抽取(替换)30个实例,从第二个类抽取相同数量的实例,即它在... -
3 votesanswersviews
如何在Scikit-Learn中的随机森林分类器中设置子样本大小?特别是对于不 balancer 的数据
目前,我正在Sklearn中为我的不 balancer 数据实现RandomForestClassifier . 我不太清楚RF在Sklearn中的工作方式 . 以下是我的担忧如下: 根据文件,似乎没有办法为每个树木学习者设置子样本大小(即小于原始数据大小) . 但实际上,在随机森林算法中,我们需要获得每个树的样本子集和特征子集 . 我不确定我们能通过Sklearn实现这一目标吗?如果有,怎么样... -
0 votesanswersviews
如果使用Scikit-Learn库的RandomForestRegressor我们有多个输出,计算分裂的杂质是如何减少的?
我正在使用scikit-learn库(python 3.x)的RandomForestRegressor类,我知道在决策树中测量分割质量的函数是方差减少(mse) . 鉴于RandomForestRegressor类支持多个输出,我的问题是:在这个特定类中多个输出的情况下,如何计算拆分的质量? 通过读取定义分裂标准的类的源代码,我会说树中分裂的杂质减少被计算为所有输出变量的平均杂质减少 . 因此,... -
1 votesanswersviews
scikit-learn ExtraTreeClassifier和RandomForestClassifier的图表
我试图制作一些图表来说明scikit-learn中RandomForestClassifier和ExtraTreeClassifier之间的区别 . 我想我可能已经弄明白但我不确定 . 以下是我的代码,用于拟合和绘制虹膜数据集: import numpy as np from sklearn.datasets import load_iris from sklearn.externals.six ... -
7 votesanswersviews
使用多个分类器时 - 如何测量整体的性能? [SciKit学习]
我有一个分类问题(预测一个序列是否属于一个类),我决定使用多种分类方法,以帮助过滤掉误报 . (问题出在生物信息学 - 将蛋白质序列分类为神经肽前体序列 . 如果有人感兴趣,and the code used to generate features and to train a single predictor) . 现在,分类器具有大致相似的性能指标(在10倍CV的训练集上具有83-94%的准... -
3 votesanswersviews
如何安装旧的R包? [重复]
这个问题在这里已有答案: Installing older version of R package 5个答案 我正在尝试使用以下命令安装R包bigrf: install.packages('bigrf') 但是,我收到此错误: install.packages中的警告:包'bigrf'不可用(对于R版本3.0.2) . 我知道该软件包不是为R 3.0.2版本构建的,但我是否无法安装它,... -
-4 votesanswersviews
比较变量并删除一个最低值R [关闭]
我有一个45个变量之间相关性的数据框,并添加了由'varImp'函数给每个变量值的随机森林重要性值(我用这个数据运行了随机森林训练模型 . 我想遍历每一列,无论变量的相关性超过.8(绝对值), remove either that row variable or that column variable, whichever has the lower 'varImp' importance .... -
2 votesanswersviews
神经网络 - 使用不 balancer 的数据集
我正在研究一个带有2个标签的分类问题:0和1.我的训练数据集是一个非常不 balancer 的数据集(考虑到我的问题,测试集也是如此) . 不 balancer 数据集的比例为1000:4,标签“0”比标签“1”多出250倍 . 但是,我有很多训练样本:大约2300万 . 所以我应该为标签'1'获得大约10万个样本 . 考虑到我有大量的训练样本,我没有考虑SVM . 我还读到了随机森林的SMOTE... -
1 votesanswersviews
随机森林比线性回归更差?这很正常,原因是什么?
我正在尝试使用机器学习来预测数据集 . 这是一个回归问题,具有180个输入要素和1个连续值输出 . 我尝试比较深度神经网络,随机森林回归和线性回归 . 正如我所料,3隐藏层深度神经网络的表现优于其他两种方法,均方根误差(RMSE)为0.1 . 然而,我意外地发现随机森林的表现甚至比线性回归更差(RMSE 0.29对0.27) . 在我的期望中,随机森林可以发现功能之间更复杂的依赖关系,以减少错误 ... -
2 votesanswersviews
R随机森林无监督
我试图通过在无监督模式下实现随机森林来检测异常值 . 这是我正在使用的数据集: 数据集:https://gist.github.com/k2xl/5cd9a048ae153275f9c7 如果你观察到,有一行有值: XKTVEQAX 570 12980.5 clothing store 数量远远超过其他值,因此我期望在随机林输出中检测到这个数量 . library(randomForest... -
1 votesanswersviews
R中的随机森林(多标签分类)
我对R很新,试图实现随机森林算法 . 我的培训和测试集有60种格式的功能: Train: feature1,feature2 .. feature60,Label Test: FileName,feature1,feature2 ... feature60 火车样本 mov-mov,or-or,push-push,or-mov,sub-sub,mov-or,sub-mov,xor-or,cal... -
3 votesanswersviews
Scikit-学习predict_proba的RandomForestClassifier输出
我有一个数据集,我分成两个用于训练和测试随机森林分类器与scikit学习 . 我有87个 class 和344个样本 . 大多数情况下, predict_proba 的输出是一个三维数组 (87, 344, 2) (它实际上是 (344, 2) 的87个 numpy.ndarray 的 (344, 2) 元素) . 有时,当我选择不同的样本子集进行训练和测试时,我只得到一个二维数组 (87, 34... -
0 votesanswersviews
为什么scikit的RandomForestClassifier在显式设置中学习不确定?
我想知道为什么我使用scikit-learn在Python中创建的RandomForestClassifiers在重复学习同一数据集时会产生不同的结果 . 有人可以向我解释一下吗? 我的代码的相关部分是这样的: from sklearn.ensemble import RandomForestClassifier as RFC RFC(n_estimators=100, max_features=... -
4 votesanswersviews
RF:一个级别的OOB精度高,另一个级别的精度非常低,具有大的不 balancer 性
我是随机森林分类器的新手 . 我用它来分类有两个类的数据集 . - 功能数量为512. - 数据比例为1:4 . 即,75%的数据来自第一类,25%来自第二类 . - 我正在使用500棵树 . 分类器产生的袋外误差为21.52% . 第一类的每类错误(由训练数据的75%表示)为0.0059 . 虽然第二类的分类错误非常高:0.965 . 我正在寻找这种行为的解释,如果你有建议提高第二类的准确... -
2 votesanswersviews
R中随机森林中的二元分类或未知类
有没有办法在随机森林中引入“未知”类别或进行二元分类? 我想将数据提供给随机森林,如果投票百分比超过70%,我只想分类 . 我总共有6个类别,所以我最初做的是创建一个随机森林,并且截止值自动默认为 c(16.6, 16.6, 16.6, 16.6, 16.6, 16.6) . 这是相当低的,所以相反,我想要: 为每个类别(共6个)创建一个随机森林,它使用二进制分类(它属于类别或不属于 - 因... -
0 votesanswersviews
如何将随机森林预测概率转换为单一的分类响应?
我有许多大的随机森林分类模型(每个运行时间约60分钟),用于使用type =“prob”选项预测栅格 . 我很满意光栅输出(每个x类作为光栅堆栈的概率) . 但是,我想要一种简单的方法来将这些概率(具有x层的光栅堆栈,其中x是类的数量)转换为简单的一层分类(即仅获胜者,没有概率) . 这相当于type =“response” . 这是一个简单的例子(不是栅格,但仍然适用): library(ran... -
-1 votesanswersviews
无监督分类:为数据分配类[关闭]
我有一组来自钻孔的数据,它包含每2米不同地质力学特性的信息 . 我正在尝试创建地质力学域,并将每个点分配给不同的域 . 我试图使用随机森林分类,并且不确定如何将proximty矩阵(或randomForest函数的任何结果)与标签相关联 . 到目前为止我的简陋代码如下: dh <- read.csv("gt_1_classification.csv", header = ... -
1 votesanswersviews
R中二元分类的随机森林截止和精度度量
我使用mlr训练R中的随机森林分类器进行二元分类 . 我的 class 很 balancer . 0 1 0.5162791 0.4837209 我通过修改树木和mtry的数量以各种方式调整了我的各种模型 . 但我无法选择正确的准确度指标并确定截止值应该是多少 . 目前我有 tpr.test.mean fpr.test.mean fnr.test.mean fpr.te... -
5 votesanswersviews
ScikitLearn中的Unconclusive RandomForest文档
在第1.9.2.3节中的Scikit-Learn http://scikit-learn.org/stable/modules/ensemble.html#id6的整体方法文档中 . 我们读到的参数: (...)当min_samples_split = 1(即完全开发树木时)设置max_depth = None时,通常也会达到最佳结果 . 请记住,这些值通常不是最佳的 . 应始终交叉验证最佳参数... -
0 votesanswersviews
如何在Scikitlearn Randomforest Model python 3中处理看不见的测试数据
我有一个数据集,其中包含14列和111256行 . 最后一列包含id,将用作目标列(Y) . 使用Train后,测试拆分scikitlearn树分类器实现 . 来自sklearn.ensemble import RandomForestClassifier forest = RandomForestClassifier(n_estimators = 100)forest = forest.fit... -
-1 votesanswersviews
功能重要性是否随RandomForestRegressor中选择的max_features数量而变化,scikit-learn?
在我的一个项目中,我试图使用RandomForestRegressor(sklearn)确定我的12个特征中哪个是最能驱动目标变量的因素 . RandomForest很好地为您提供了一个功能重要性列表,解释了哪些功能最适合用于解释目标 . 但是我仍然不确定我的模型的max_features应该是什么,因为默认的答案是使用所有的功能,这意味着我的模型只是袋装的树木集合 . 经过一些discussi... -
2 votesanswersviews
scikit-learn RandomForestClassifier中的特征重要性和森林结构如何相关?
以下是使用Iris数据集的问题的简单示例 . 当我试图理解如何计算特征重要性以及在使用 export_graphviz 可视化估算器的森林时这是如何可见时,我感到困惑 . 这是我的代码: import pandas as pd import numpy as np from sklearn.datasets import load_iris import matplotlib.pyplot as ... -
0 votesanswersviews
使用GridSearchCV进行逻辑回归
我正在试图找出如何使用GridSearchCV进行线性回归,但是我得到了一个令人讨厌的错误,如果这是一个估算器问题对GridSearchCV不正确或者如果这是我的“LogisticRegression”,我就不会得到设置不正确 . 我让它适用于随机森林和knn,但我坚持这个实现 . 我使用一个小数据集,这就是我想使用liblinear的原因(即使它是默认情况下,如文档中所述) . tuned_pa... -
1 votesanswersviews
Scitkit-学习GridSearchCV best_features_混淆
我对我建的管道有些困惑 . 它非常简单 - 由我构建的一个名为 QueryQuality() 的变换器组成,它每次都以相同的方式转换我的数据,以及一个我试图通过使用 GridSearchCV 为随机森林选择最佳参数的RandomForestRegressor . 一切运行正常,但是当我检查 model.best_params_ 时,它表示我的随机森林只有1个功能效果最佳,而 model.best_... -
0 votesanswersviews
使用Caret Package for Random Forest(回归)时出错
所以,我正在尝试训练模型并使用随机森林回归进行测试 . 我的响应变量是一个数字,我有23个其他变量,它们是数字和字符的混合 . 我使用以下代码块: library(e1071) library(dplyr) library(class) library(caret) library(kernlab) data=read.csv(choose.files()) set.seed(1) myda...